公开质疑VLA的王兴兴，或许只是赶在了智驾行业前面？ #科技 #宇树 #『机器人』️ #理想 #模型 #质疑

“VLA能够解决全自动驾驶，至于VLA是否是效率最高的方式还要打个问号。但现阶段VLA是能力最强的架构。”

李想在5月的《理想AI Talk第二季》里，提前为理想i8身上的最大卖点——VLA司机大模型，埋下了伏笔。

以至于两个月后的理想i8发布会，有大约四分之一的时间都用在了描绘VLA司机大模型多么强大上。

事实上，不只是理想，长城、奇瑞、极氪、小鹏、零跑等车企均在推进VLA模型的研发和落地。

从整个智驾行业的角度来看，VLA模型也早已取代端到端模型成为新一轮智驾竞赛的核心。

不过，就在当下智驾行业内的人风风火火大干VLA模型的时候，宇树科技CEO王兴兴，这位来自『机器人』️行业的大佬，却毫不留情的给VLA司机大模型浇了一盆冷水。

相对“傻瓜”的VLA模型

8月9日，王兴兴在2025世界『机器人』️大会上直言VLA模型是一个相对“傻瓜式的架构”。

同时，王兴兴还表示，自己对VLA模型抱一个“比较怀疑的态度”。

此言一出，舆论立刻炸开了锅。极佳视界CEO黄冠甚至在朋友圈中吐槽王兴兴的观点“太业余”，并建议王兴兴以后“不要谈AI了”。

在判断王兴兴的话究竟是“针砭之言”还是“无稽之谈”之前，我们先来了解下VLA司机大模型究竟是什么。

VLA指的是Vision-Language-Action，也就是视觉-语言-动作，它能够在端到端的基础上，同时通过视觉信息和语音信息来执行驾驶动作。

李想把它的产品形态比喻为“司机Agent（智能体）”，对比的对象自然是同为司机的人类。

你打车的时候怎么跟司机沟通，就可以怎么跟它沟通。

短平快的指令就由端侧的VLA直接处理，如果指令很复杂，需要理解，就送去云端的基座模型先解析翻译，然后再交给VLA。

听到这你是不是会有种奇妙的感觉：这不就是有个『机器人』️吗？

是的，VLA模型虽然因智驾而被更多人所熟知，但它最早其实是应用在『机器人』️身上的。

2024年10月，『斯坦福大学』发布了全球首个开源VLA模型OpenVLA，成功验证了VLA模型在『机器人』️的实际操作中拥有更强的泛化能力。

此后经过在『机器人』️行业和智驾行业的落地应用后，VLA模型的确展现出了十分强大的实用价值。

它更像是端到端和VLM用上了融合卡，在面对一些人类都头疼的潮汐车道、长时序推理等特殊场景时，VLA思考理解的方式能更像人，处理的方式则比人更好。

如果说此前的VLM还局限在2D图像上，那VLA则已经拥有一个完整的大脑，能通过语言和逻辑推理能力解决问题。

听起来似乎VLA就是打开自动驾驶大门的那把钥匙，但在王兴兴看来，现阶段的VLA模型存在一道非常棘手的问题，就是它所采集的真实世界交互的数据是不够的。

为了解决这一问题，王兴兴说他们尝试了在VLA模型的基础上再加上一个“RL”，也就是强化学习，但最终发现还是“不够用”。

相对于VLA+RL，王兴兴发现更好的解决方案其实是世界模型。

王兴兴表示，宇树在去年就开始利用预训练的动作视频，去控制『机器人』️按照视频内容去执行对应动作。

在王兴兴看来，由视频驱动的世界模型这一技术方向，可能比VLA模型的收敛概率还大。

但对于世界模型究竟能不能实现技术收敛，王兴兴却又表示“不敢打包票”。

关键原因就在于，王兴兴认为世界模型太考验视频生成质量了，导致对GPU的消耗有点大。

但王兴兴也表示，对于『机器人』️来说，视频生成质量并不需要很高。

值得注意的是，在王兴兴公开怀疑VLA之前，理想i8发布会就讲过了类似的问题，并且也谈到了世界模型。

箭头渐渐指向世界模型

在理想i8发布会上，理想自动驾驶研发高级副总裁郎咸朋也谈到了数据不足对VLA模型的负面影响。

郎咸朋分享道，在人类驾驶中，高速和城市快速路占了总里程的60%多，而乡间小路的里程只占了1%不到，所以人开车的比例是非常不均衡的，如果以此来进行训练的话，那么效果是非常差的。

针对这一问题，郎咸朋表示理想的解决方案是开发世界模型。

世界模型能够生成符合真实物理世界规律的场景，进而弥补实车数据的不足。

在汽车行业，相对于理想，蔚来对世界模型的应用更加深入。

早在去年的7月份，蔚来就发布了世界模型，只是一直到今年5月份，才推送了首个版本的世界模型，但就实际效果来看，世界模型的表现起码到现在还没有那么惊艳。

不过，根据蔚来发布的官方信息，蔚来世界模型对空间理解的能力和长时序的建模能力会更强，进而应对场景表现也会越来越好。

既然如此，那就先等等看吧。

此外，王兴兴对VLA模型提出“怀疑”后，国家地方共建人形『机器人』️创新中心首席科学家江磊在世界『机器人』️大会也表达了自己的观点。

江磊表示，感知-认知-决策-执行的闭环尚未闭合，VLA模型需要重构，从而寻求新的解决范式。

国际『机器人』️联合会技术委员会主席亚历山大·维尔（Alexander Verl）则在『机器人』️大会上更直白地讲起了VLA模型在技术上的局限，主要包括7个方面，分别是：

无记忆能力；感知缺陷；动作缺失；物体混淆；成功率偏低；语言理解缺陷；反馈缺失。

与此同时，维尔还指出，VLA模型训练成本高昂，在不含训练数据制备成本的前提下，也会达到数千万美元💵。

至于这些问题的解决方案，维尔的想法与王兴兴基本一致，也是利用世界模型去学习。

写在最后

VLA模型是当前智驾行业最热门的方向，更多的声音都是在讨论它有多么强大和有价值。

因此，王兴兴的“怀疑”声音就不免有些刺耳。

但刺耳归刺耳，从技术发展状况来看，VLA大模型注定只是智驾走向终极之前的中转站。

所以，公开阐释对VLA的怀疑，王兴兴其实只是赶在了智驾行业前面。

而智驾最终是在世界模型那里，还在其他解决方案那里收敛，或许还需要更多的探索和讨论。

公开质疑VLA的王兴兴，或许只是赶在了智驾行业前面？

猜你喜欢

海报 | 禁燃禁放久久为功生态泰州美美与共(禁燃禁放是什么意思)

75岁『刘晓庆』再演少女，与小30岁男星拍吻戏，这么多年还是丫头教？(75岁『刘晓庆』再演武则天是什么名称)

273只小狗出演！『成毅』新片《营救汪星人》定档2月14日，陪伴观众过大年(继续播放小狗)

大型寺院烧香供奉桌陵园墓地石雕供台雕刻古建青石供桌款式(寺院供香有什么说法吗)

从被母亲掏空资产到歌坛封神，她扛住至亲的刀，挣脱血缘，向阳而生！(从小就被母亲抛弃)