公开质疑VLA的王兴兴,或许只是赶在了智驾行业前面?

“VLA能够解决全自动驾驶,至于VLA是否是效率最高的方式还要打个问号。但现阶段VLA是能力最强的架构。”

李想在5月的《理想AI Talk第二季》里,提前为理想i8身上的最大卖点——VLA司机大模型,埋下了伏笔。

以至于两个月后的理想i8发布会,有大约四分之一的时间都用在了描绘VLA司机大模型多么强大上。

事实上,不只是理想,长城、奇瑞、极氪、小鹏、零跑等车企均在推进VLA模型的研发和落地。

从整个智驾行业的角度来看,VLA模型也早已取代端到端模型成为新一轮智驾竞赛的核心。

不过,就在当下智驾行业内的人风风火火大干VLA模型的时候,宇树科技CEO王兴兴,这位来自『机器人』️行业的大佬,却毫不留情的给VLA司机大模型浇了一盆冷水。

相对“傻瓜”的VLA模型

8月9日,王兴兴在2025世界『机器人』️大会上直言VLA模型是一个相对“傻瓜式的架构”。

同时,王兴兴还表示,自己对VLA模型抱一个“比较怀疑的态度”。

此言一出,舆论立刻炸开了锅。极佳视界CEO黄冠甚至在朋友圈中吐槽王兴兴的观点“太业余”,并建议王兴兴以后“不要谈AI了”。

在判断王兴兴的话究竟是“针砭之言”还是“无稽之谈”之前,我们先来了解下VLA司机大模型究竟是什么。

VLA指的是Vision-Language-Action,也就是视觉-语言-动作,它能够在端到端的基础上,同时通过视觉信息和语音信息来执行驾驶动作。

李想把它的产品形态比喻为“司机Agent(智能体)”,对比的对象自然是同为司机的人类。

你打车的时候怎么跟司机沟通,就可以怎么跟它沟通。

短平快的指令就由端侧的VLA直接处理,如果指令很复杂,需要理解,就送去云端的基座模型先解析翻译,然后再交给VLA。

听到这你是不是会有种奇妙的感觉:这不就是有个『机器人』️吗?

是的,VLA模型虽然因智驾而被更多人所熟知,但它最早其实是应用在『机器人』️身上的。

2024年10月,『斯坦福大学』发布了全球首个开源VLA模型OpenVLA,成功验证了VLA模型在『机器人』️的实际操作中拥有更强的泛化能力。

此后经过在『机器人』️行业和智驾行业的落地应用后,VLA模型的确展现出了十分强大的实用价值。

它更像是端到端和VLM用上了融合卡,在面对一些人类都头疼的潮汐车道、长时序推理等特殊场景时,VLA思考理解的方式能更像人,处理的方式则比人更好。

如果说此前的VLM还局限在2D图像上,那VLA则已经拥有一个完整的大脑,能通过语言和逻辑推理能力解决问题。

听起来似乎VLA就是打开自动驾驶大门的那把钥匙,但在王兴兴看来,现阶段的VLA模型存在一道非常棘手的问题,就是它所采集的真实世界交互的数据是不够的。

为了解决这一问题,王兴兴说他们尝试了在VLA模型的基础上再加上一个“RL”,也就是强化学习,但最终发现还是“不够用”。

相对于VLA+RL,王兴兴发现更好的解决方案其实是世界模型。

王兴兴表示,宇树在去年就开始利用预训练的动作视频,去控制『机器人』️按照视频内容去执行对应动作。

在王兴兴看来,由视频驱动的世界模型这一技术方向,可能比VLA模型的收敛概率还大。

但对于世界模型究竟能不能实现技术收敛,王兴兴却又表示“不敢打包票”。

关键原因就在于,王兴兴认为世界模型太考验视频生成质量了,导致对GPU的消耗有点大。

但王兴兴也表示,对于『机器人』️来说,视频生成质量并不需要很高。

值得注意的是,在王兴兴公开怀疑VLA之前,理想i8发布会就讲过了类似的问题,并且也谈到了世界模型。

箭头渐渐指向世界模型

在理想i8发布会上,理想自动驾驶研发高级副总裁郎咸朋也谈到了数据不足对VLA模型的负面影响。

郎咸朋分享道,在人类驾驶中,高速和城市快速路占了总里程的60%多,而乡间小路的里程只占了1%不到,所以人开车的比例是非常不均衡的,如果以此来进行训练的话,那么效果是非常差的。

针对这一问题,郎咸朋表示理想的解决方案是开发世界模型。

世界模型能够生成符合真实物理世界规律的场景,进而弥补实车数据的不足。

在汽车行业,相对于理想,蔚来对世界模型的应用更加深入。

早在去年的7月份,蔚来就发布了世界模型,只是一直到今年5月份,才推送了首个版本的世界模型,但就实际效果来看,世界模型的表现起码到现在还没有那么惊艳。

不过,根据蔚来发布的官方信息,蔚来世界模型对空间理解的能力和长时序的建模能力会更强,进而应对场景表现也会越来越好。

既然如此,那就先等等看吧。

此外,王兴兴对VLA模型提出“怀疑”后,国家地方共建人形『机器人』️创新中心首席科学家江磊在世界『机器人』️大会也表达了自己的观点。

江磊表示,感知-认知-决策-执行的闭环尚未闭合,VLA模型需要重构,从而寻求新的解决范式。

国际『机器人』️联合会技术委员会主席亚历山大·维尔(Alexander Verl)则在『机器人』️大会上更直白地讲起了VLA模型在技术上的局限,主要包括7个方面,分别是:

无记忆能力;感知缺陷;动作缺失;物体混淆;成功率偏低;语言理解缺陷;反馈缺失。

与此同时,维尔还指出,VLA模型训练成本高昂,在不含训练数据制备成本的前提下,也会达到数千万美元💵。

至于这些问题的解决方案,维尔的想法与王兴兴基本一致,也是利用世界模型去学习。

写在最后

VLA模型是当前智驾行业最热门的方向,更多的声音都是在讨论它有多么强大和有价值。

因此,王兴兴的“怀疑”声音就不免有些刺耳。

但刺耳归刺耳,从技术发展状况来看,VLA大模型注定只是智驾走向终极之前的中转站。

所以,公开阐释对VLA的怀疑,王兴兴其实只是赶在了智驾行业前面。

而智驾最终是在世界模型那里,还在其他解决方案那里收敛,或许还需要更多的探索和讨论。

特别声明:[公开质疑VLA的王兴兴,或许只是赶在了智驾行业前面?] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

海报 | 禁燃禁放久久为功 生态泰州美美与共(禁燃禁放是什么意思)

主编:吴小平 审核:李 玺 校核:王昌建 版式:今 昔…

海报 | 禁燃禁放久久为功 生态泰州美美与共(禁燃禁放是什么意思)

75岁『刘晓庆』再演少女,与小30岁男星拍吻戏,这么多年还是丫头教?(75岁『刘晓庆』再演武则天是什么名称)

在这部短剧《武则天传奇》中,她的表现自然是重点讨论之一,但更引人注目的,却是她那种巨大年龄反差,仿佛让观众不禁摸不着头脑。『刘晓庆』固然证明了自己依旧可以折腾、依旧敢折腾,但观众也在反思:她所演的那些和她年龄不符…

75岁『刘晓庆』再演少女,与小30岁男星拍吻戏,这么多年还是丫头教?(75岁『刘晓庆』再演武则天是什么名称)

273只小狗出演!『成毅』新片《营救汪星人》定档2月14日,陪伴观众过大年(继续播放小狗)

影片由梁婷执导,『成毅』主演,以273只小狗演员创下国内最大规模“汪星人”参与电影拍摄的纪录。营救过程中,他们和一群机智勇敢的狗狗并肩作战,与犯罪团伙斗智斗勇,最终勇获全胜。集萌宠、悬疑、动作、喜剧于一体,影片填…

273只小狗出演!『成毅』新片《<strong>营救汪星人</strong>》定档2月14日,陪伴观众过大年(继续播放小狗)

大型寺院烧香供奉桌 陵园墓地石雕供台雕刻 古建青石供桌款式(寺院供香有什么说法吗)

它静立神龛之前,在香火缭绕中沉淀着岁月,以坚硬石质承载家族温情,用精雕刻纹诉说千年传承,早已超越器物本身,成为家族精神的文化图腾。北方供桌风格浑厚,桌腿雕饕餮纹、回纹,尽显沉稳大气;南方则重精巧,徽派透雕将“…

大型寺院烧香供奉桌 陵园墓地石雕供台雕刻 古建青石供桌款式(寺院供香有什么说法吗)

从被母亲掏空资产到歌坛封神,她扛住至亲的刀,挣脱血缘,向阳而生!(从小就被母亲抛弃)

那时候的她,承受着双重的打击:一边是最亲的人的背叛和剥削,多年的付出成了笑话;一边是事业的全面崩塌,公司雪藏她,身边的朋友渐渐远离,全网都是对她的诋毁,曾经的“励志天后”一夜之间成了人人指责的“坏人”。 …

从被母亲掏空资产到歌坛封神,她扛住至亲的刀,挣脱血缘,向阳而生!(从小就被母亲抛弃)