英伟达老大宣布:VLA机器人路线彻底过时,新招WAM要统治地球了

我跟你说,这可不是开玩笑。英伟达那个叫Jim Fan的家伙,前两天在Sequoia的会上说了句大实话——我们这几年辛辛苦苦搞的VLA路线,已经玩完了。包括他自己前半年还在推的GR00T,直接宣布淘汰。你说这得多狠?连自己都不放过。

他讲了个段子:2016年,黄仁勋抱着第一台DGX-1走进OpenAI办公室,Jim当时还是实习生,排队签名,压根不知道自己在签啥。现在那台机器进了计算机历史博物馆。他说自己感觉像恐龙一样老。但你知道他接下来干啥了?他说LLM(大语言模型)用了三次阶跃、六年时间就走到今天,那咱们机器人也抄作业呗——把“预测下一个字符串”换成“预测下一个物理世界状态”,他管这叫“底层同构”。于是,WAM(世界动作模型)诞生了,代表作是DreamZero。

VLA的问题在哪?参数全堆在语言上。记住:它擅长编码“名词”,比如认出Taylor Swift;但不擅长“动词”,比如怎么把东西推到她旁边。人形机器人需要的不是背单词,是懂物理。所以Jim提出了新范式:用视频世界模型代替语言模型,用人类第一人称视频代替遥操作数据。他们用21,000小时人类视频预训练,发现了一个神经缩放定律,R²等于0.998——这数据干净得让人想哭。

DreamZero目前还像个GPT-2,不够稳定,但方向对了。Jim给出了2040年机器人完成终局的预测,置信度95%。他说VLA完成了历史使命,安息吧,世界动作模型万岁。你看,这就是技术的残酷——你和自己赛跑,赢了自己,然后发现赛道换了。总结一句话:别让你的模型只会认图,让它学会“做梦”吧。