(来源:科技行者)
这项由香港大学、上海创新研究院、北京航空航天大学和Kinetix AI联合开展的突破性研究发表于2026年2月,论文编号为arXiv:2602.10106v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
想象这样一个场景:你戴着VR眼镜👓在家里做家务,扔垃圾、整理物品、搬运东西,而这些平凡的动作被记录下来后,竟然能教会一台1.3米高的『机器人』️在完全不同的环境中做同样的事情。这听起来像科幻电影的情节,但香港大学的研究团队真的做到了。
这个名为"EgoHumanoid"的项目首次实现了用人类的第一视角视频来训练人形『机器人』️进行复杂的全身运动控制。就像人类婴儿通过观察大人走路来学会走路一样,『机器人』️现在也能通过"看"人类的视频来学习如何在真实世界中行走和操作物体。
传统的『机器人』️训练方式就像让一个学生只在教室里学习,永远接触不到外面的真实世界。研究人员通常需要在实验室里用昂贵复杂的遥控设备来"手把手"教『机器人』️每一个动作,这不仅成本高昂,而且『机器人』️学到的技能往往只能在实验室这种单调环境中使用。一旦到了真实的家庭、商店或户外环境,『机器人』️就像换了一个完全陌生的世界,常常表现得笨手笨脚。
而人类的日常生活恰恰相反,我们每天都在各种不同的环境中走路、取物、搬运,积累了丰富的经验。问题是,人类和『机器人』️的身体构造差别很大:人类平均身高1.6到1.8米,而实验用的Unitree G1『机器人』️只有1.3米高;人类有灵活的手指,『机器人』️只有简单的三指机械手;人类走路时身体会自然摆动,『机器人』️则需要保持机械式的平衡。这就像试图把大人的衣服直接套在小孩身上一样,尺寸和比例都对不上。
研究团队的巧妙之处在于开发了一套"翻译系统",能够把人类的动作"翻译"成『机器人』️能理解和执行的指令。这个过程包含两个关键步骤:视角对齐和动作对齐。
视角对齐就像给『机器人』️配了一副"变焦眼镜👓"。由于人类比『机器人』️高,看到的视角也不同,就好比成年人和小孩子看同一张桌子时,成年人是俯视角度,小孩子可能是平视角度。研究团队使用了一种叫MoGe的技术来估算视频中每个像素点的距离信息,然后把人类的高视角"压缩"到『机器人』️的低视角。当这种转换产生空白区域时,他们又用人工智能图像生成技术来"脑补"这些缺失的部分,确保『机器人』️看到的是完整的画面。
动作对齐则更像是制作一本"通用动作字典"。研究团队设计了一套人类和『机器人』️都能"说"的动作语言。对于上半身的操作动作,他们用相对位置变化来描述,比如"手向前伸5厘米,向左转15度",这样就避免了因为身高差异导致的绝对位置不匹配。对于下半身的行走动作,他们把复杂的步态简化为几个基本指令:前进、后退、左转、右转、蹲下、站立等,就像游戏手柄🎮️的方向键一样简单明了。
为了收集训练数据,研究团队开发了一套便携的『VR设备』系统。人类志愿者戴上VR头盔和身体追踪器,头盔上安装的摄像头记录第一视角视频,身体追踪器捕捉全身动作。这套设备重量轻,可以带到任何地方使用,不像传统的『机器人』️遥控系统那样笨重复杂。志愿者可以在家里、商店、公园等各种真实环境中自然地执行各种任务,而这些数据都会被自动记录下来。
相比之下,『机器人』️的遥控训练就像在实验室里进行"标准化考试",操作员需要戴着复杂的遥控设备精确控制『机器人』️的每一个关节,这不仅技术要求高,而且只能在配备专业设备的实验室环境中进行。数据显示,收集一段人类示范视频平均只需要39.7秒,而收集同样长度的『机器人』️遥控数据需要62.1秒,人类数据收集效率提高了近一倍。
研究团队设计了四个测试任务来验证这个系统的效果。这些任务都需要『机器人』️同时具备行走和操作能力,就像人类在日常生活中需要一边走路一边做事情一样。
第一个任务是"枕头放置",『机器人』️需要抱着枕头走到床边,然后蹲下把枕头放到床头的指定位置。这个任务考验的是『机器人』️能否在携带物品的同时保持平衡行走,并且准确地在软床面上放置物品。
第二个任务是"垃圾投放",『机器人』️要拿着垃圾走到垃圾桶🗑️前,然后把垃圾准确投入桶口。这不是简单的从上往下丢弃,而是需要从侧面投入,这要求『机器人』️具备精确的空间定位和投掷技巧。
第三个任务是"玩具转移",『机器人』️需要走到一个台子前,用双手抓取玩具,然后转身走到另一张桌子前把玩具放下。这个任务涉及连续的动作序列:接近、抓取、携带、放置,每一步都不能出错。
第四个任务是"购物车🛒收纳",这是最复杂的任务。『机器人』️要推着购物车🛒到货架前,用一只手扶着购物车🛒保持稳定,用另一只手从货架上取下玩具放入购物车🛒,最后推着购物车🛒离开。这个任务要求『机器人』️具备多任务协调能力。
实验结果令人惊喜。在熟悉的实验室环境中,仅用『机器人』️遥控数据训练的系统平均成功率为59%,而加入人类示范数据后成功率提升到78%。但真正的突破出现在陌生环境测试中:纯『机器人』️训练的系统成功率只有31%,而结合人类数据的系统成功率高达82%,提升了惊人的51%。
这意味着什么呢?就像一个只在学校学习的学生和一个既在学校学习又有丰富生活经验的学生相比,后者在面对新情况时适应能力更强。人类的日常经验为『机器人』️提供了丰富的"生活常识",让它能更好地处理各种意外情况。
进一步的分析揭示了一个有趣的现象:不同类型的技能从人类数据中获益程度不同。导航技能(如走路、转弯、定位)几乎完全可以从人类数据中学习,因为空间移动的基本原理对人类和『机器人』️是相似的。但精细操作技能(如精确抓取、旋转物体)的迁移效果较差,因为人类的手指灵活度远超『机器人』️的机械手。
研究团队还发现,人类数据的多样性比数量更重要。他们做了一个对比实验:使用同样数量的人类示范数据,但分别在1个、2个、3个不同场景中收集。结果显示,即使总数据量相同,场景越多样,『机器人』️的泛化能力越强。这就像学语言一样,在不同环境中接触同一个词汇比在同一环境中重复听同一个词汇更有助于理解。
当然,这套系统也有其局限性。最主要的问题是手部动作的精确转换仍然困难。由于人类和『机器人』️的手部结构差异巨大,『机器人』️很难准确理解人类想要执行的精确旋转动作。另外,这种训练方法对数据质量要求很高,人类示范者需要保持相对标准的动作,比如手部不能被遮挡太久,身体不能过度摇摆等。
展望未来,这项技术的潜在应用前景广阔。家庭服务『机器人』️可能不再需要为每个新家庭单独编程,而是通过观看主人的日常生活视频就能学会适应新环境。工业『机器人』️也可能通过观看熟练工人的操作视频来快速学习新的装配流程。更有趣的是,随着VR和AR设备的普及,普通人的日常活动本身就可能成为『机器人』️学习的宝贵资源。
这项研究的真正意义在于开辟了一条全新的『机器人』️训练路径。以往的『机器人』️学习就像传统的师父带徒弟,需要手把手地教每一个动作。而现在,『机器人』️开始具备了通过观察学习的能力,就像人类婴儿通过观察成年人来学习基本技能一样。虽然目前这种学习还不够完美,但它代表了『机器人』️智能发展的一个重要里程碑。
随着这种技术的不断完善,我们或许真的会迎来这样一个时代:只要戴上VR眼镜👓演示一遍,『机器人』️就能学会新技能。那时候,训练『机器人』️可能就像录制一段视频教程一样简单。
Q&A
Q1:EgoHumanoid系统具体是如何让『机器人』️学会人类动作的?
A:EgoHumanoid通过两个步骤实现:首先是视角对齐,用AI技术把人类的高视角转换成『机器人』️的低视角;然后是动作对齐,把人类的复杂动作转换成『机器人』️能理解的简单指令。就像制作了一本人机通用的动作字典,让『机器人』️能"翻译"人类的示范动作。
Q2:用VR眼镜👓训练『机器人』️比传统方法有什么优势?
A:VR眼镜👓训练的最大优势是便携和高效。传统方法需要在实验室用复杂设备遥控『机器人』️,而VR系统可以在任何地方收集数据,效率提高近一倍。更重要的是,人类可以在真实多样的环境中自然演示,为『机器人』️提供丰富的"生活经验",大幅提升其在新环境中的适应能力。
Q3:这种训练方法的成功率如何?
A:在陌生环境测试中,纯『机器人』️训练的成功率只有31%,而结合人类示范数据的系统成功率达到82%,提升了51%。在熟悉环境中,成功率也从59%提升到78%。这说明人类的日常经验确实能显著提高『机器人』️的学习效果和适应能力。




