赛道Hyper | 智元GE:重塑『机器人』️智能执行逻辑(智元rg1000)

作者:周源/华尔街见闻

在科技迭代过程中,具身智能领域的发展,在当面,面临着技术突破的紧迫需求。

7月27日,智元『机器人』️在WAIC 2025“智启具身论坛”发布行业首个动作驱动世界模型开源平台“Genie Envisioner”(以下简称GE)。

GE的出现,为具身智能的实际应用提供了新的技术支撑,也让行业看到了『机器人』️自主决策能力提升的更多可能。

迫切需求:突破传统

自1950年英国数学家、逻辑学家艾伦・图灵(Alan Turing)在《Computing Machinery and Intelligence》(计算机器与智能)论文中提出具身智能概念以来,该领域在漫长的发展过程中,始终存在着一些难以突破的技术瓶颈。

传统的人工智能技术主要依赖符号处理范式,这在处理虚拟环境中的逻辑问题时表现尚可,但在与真实物理世界做交互时,就显得力不从心。

比如在工业生产的装配环节,传统『机器人』️只能按照预设的程序操作,一旦零件位置出现微小偏差,就可能导致整个装配过程中断。

随着工业生产的柔性化、个性化需求日益增长,商业服务场景对『机器人』️的灵活性要求也不断提高,市场迫切需要一种能让『机器人』️更好地适应复杂环境、自主做出决策并执行任务的技术,正是在这样的背景下,具身智能成为行业探索的重要方向。

具身智能强调智能体通过与环境的实时交互,实现感知、认知、决策与行动的一体化;但环境感知的精度、决策的灵活性以及动作执行的精准度等问题,仍然在很大程度上制约着具身智能技术的进一步发展。

智元『机器人』️发布的GE平台,在技术层面,实现了三大核心能力——预测、控制和评测的协同运作,为具身『机器人』️从“看见”到“行动”提供端到端、一体化的解决方案。

GE平台整合了这三项能力,形成一套从视觉感知到动作执行的端到端解决方案。

就预测来说,通过复杂算法,深入分析海量数据。以“做三明治”这个任务为例,GE平台的预测能力,可预判在拿起面包时可能出现的滑落风险,进而指导机械臂调整抓取的角度。

这一过程是基于对面包的质地、机械臂的抓取力度等多维度数据的综合分析,为后续的动作规划提供了有效参考。

控制能力能根据实际情况做出动态调整。比如在搬运不同重量的物体时,会依据物体重量改变机械臂的输出功率:搬运较轻物体时减少功率以避免造成损坏,反之则增加功率以保证搬运稳定性,遇到障碍物时也能及时改变运动轨迹,体现了对实时反馈的快速响应能力。

在任务执行过程中,评测能力就可实时监控效果。比如“倒茶”这个动作,搭载GE平台的智能终端(比如具身『机器人』️),会持续监测茶水倒入的速度和量;当发现接近溢出的情况时,会向控制模块发送信号,调整茶壶的倾斜角度,这样的实时监测和反馈机制,能保障任务的完成效果。

平台技术差异及优势

GE核心组成部分包括多视角视频扩散模型GE-Base和GE-Act动作解码器。

依托AgiBot-World-Beta数据集(包含超100万条、近3000小时头部与双臂腕同步视频流),GE-Base对场景的理解不仅仅停留在表面的识别层面。

在厨房场景中,GE-Base不仅能识别鸡蛋的位置,还能通过鸡蛋的色泽、形状等特征,判断其新鲜度,进而影响『机器人』️的抓取力度,这得益于GE-Base对视频流中空间布局、动作演化以及语义意图的多层解析,为『机器人』️感知外部环境提供有力信息支持。

160M参数动作解码器GE-Act的主要功能,是将GE-Base获取的视觉信息,转化为『机器人』️能执行的动作指令。

以“拧瓶盖”为例,GE-Act能从视觉信息中计算出机械臂需要旋转的角度、施加的扭矩等参数,确保既能拧开瓶盖又不会损坏瓶子,其转化准确性直接影响『机器人』️动作的实际效果。

横向对比来看,GE平台的技术差异体现在哪里?

在技术架构上,多数同类平台的预测、控制、评测能力是相对独立的模块,数据在传输过程中存在一定延迟,协同性一般。

GE平台整合了这三大能力,数据流转延迟较低,故而『机器人』️在面对突发情况时,从预测到控制再到评测的整个流程更快捷。

比如在遇到障碍物时,GE平台能较快完成“预测碰撞风险-控制转向-评测转向效果”系列操作,而同类平台可能会因为协同方面的问题,导致转向不及时或转向过度。

在数据利用方面,部分同类平台依赖单一视角的视频数据做训练,对场景感知存在一定局限,在复杂环境中容易误判。

GE平台的GE-Base采用多视角视频扩散模型,结合AgiBot-World-Beta数据集的多视角视频流,能从多个维度捕捉场景信息,对场景的理解更全面。

比如在仓库中,单一视角可能因为遮挡而无法看清货物的全貌,而多视角的GE-Base能综合不同角度的信息,精准地识别出货物的位置和状态。

AgiBot-World-Beta是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模『机器人』️数据集AgiBot World的一个版本。

2024年12月30日,智元『机器人』️联合上海人工智能实验室、国家地方共建人形『机器人』️创新中心以及上海库帕思,正式开源AgiBot World数据集。这个数据集源自智元『机器人』️位于张江科学城的数据采集工厂,这里有上百台人形『机器人』️,为数据集的生成提供硬件支持。

在真实测试时,搭载GE-Act的『机器人』️完成了“做三明治”“倒茶”“擦桌面”等任务,其智能模式有明显变化。

当食材的摆放位置与训练数据中的场景不同时,比如火腿放在面包的侧面,传统『机器人』️可能会因为没有预设该场景而陷入停滞,而搭载GE平台的『机器人』️能自主规划抓取路径,依靠对当前场景的实时感知与决策完成操作。

在产业应用方面,比如工业领域,汽车制造的车型更新较快,传统『机器人』️更换生产线时,重新编程调试往往需要数天时间,而搭载GE平台的『机器人』️能通过视觉识别新零件结构,自主生成组装动作,将切换时间缩短至数小时,提升了生产柔性。

GE平台凭借其技术架构和实际应用效果,为具身智能的发展提供了可行的路径,其在各领域的应用正逐渐改变传统的生产与服务模式。

特别声明:[赛道Hyper | 智元GE:重塑『机器人』️智能执行逻辑(智元rg1000)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

缺铁性贫血的症状及危害有哪些呢(缺铁性贫血的症状危害大吗)

缺铁性贫血的症状主要包括乏力、头晕、心悸,长期未治疗可能导致心脏扩大和认知功能下降。这种病症的危害涉及生『长发』育迟缓、免疫功能受损、妊娠并发症等。 血红蛋白合成不足导致组织缺氧,早期表现为持续疲劳感,轻微活动即气促

缺铁性贫血的症状及危害有哪些呢(缺铁性贫血的症状危害大吗)

SD卡的正确使用方法?2025年新规+实操避坑指南(sd卡该如何使用)

SD卡的正确使用方法关乎数据安全与设备稳定性。本文详解2025年最新操作规范、日常使用误区与防损技巧,帮助用户提升存储效率,延长SD卡寿命。

SD卡的正确使用方法?2025年新规+实操避坑指南(sd卡该如何使用)

红薯中的宝藏:高含量膳食纤维的秘密(红薯科普)

为什么地瓜纤维被称为“隐藏冠军”?它如何从普通食材跃升为食品工业的热门原料?这篇文章将深入解读这一神奇成分,揭示其独特的营养价值和广泛的应用前景。

红薯中的宝藏:高含量膳食纤维的秘密(红薯科普)

光伏承载力检测厂房户用光伏检测报告(光伏承载力评估)

在这一进程中,光伏承载力检测与相应的检测报告,犹如基石与蓝图,构成了项目安全落地、长效运行的命脉所系。它用数据说话,明确指出屋顶的承载余量,为光伏系统的规模设计、支架选型与安装方案划定安全边界,确保新增荷载与…

光伏承载力检测厂房户用光伏检测报告(光伏承载力评估)

一步错步步错,76岁牛群弯腰驼背鞋子破旧太心酸,裸捐后晚年凄苦(一步错步步错歌曲)

这人一有了名和利就容易躁动,牛群的爱好也多了起来,又是摄影又是足球,甚至还当上了副县长。 虽然事发两年后经过调查还了他清白也不需要他裸捐了,但他的名声挽救不回来了,不知道是不是这件事影响太大,他和妻子也离了…

一步错步步错,76岁牛群弯腰驼背鞋子破旧太心酸,裸捐后晚年凄苦(一步错步步错歌曲)