AI人物 18小时前 188 阅读 0 评论

宇树科技王兴兴发“暴论”,对智驾有什么参考?

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

文 | 赛博汽车

“VLA模型是相对傻瓜式的架构。”

2025年8月9日,在北京举办的2025世界机器人大会上,宇树科技的创始人、CEO兼CTO王兴兴在演讲中这样说道。

尽管他是针对具身智能大模型发表这一看法的,但对于当前智能驾驶最热门模型方向,不得不让人有些错愕。

包括极佳视界的CEO黄冠也在吐槽他的观点“太业余”。

王兴兴认为,世界模型可能是更好的技术方向。不过,短期的未来2~5年,“最大的肯定还是一个端到端的具身智能AI模型”。

大会上,他从核心瓶颈、新兴技术引擎及未来技术重心三个方面,对具身智能机器人的发展态势进行梳理与分析。我们不妨看看,这位大红人的观点,有什么启发。

01 核心瓶颈:模型不够好

谈及机器人未大规模应用的原因,很多人误认为是硬件性能不足或成本过高。但王兴兴指出,当前机器人硬件(包括人形机器人的灵巧手、整机等)已基本够用。

从技术层面而言,人形机器人的硬件,诸如灵巧手和整机等,已足够满足基本需求,尽管在工程实施上仍存在诸多挑战,但已能够支撑基础功能的实现。

他认为,限制其大规模应用的核心瓶颈,在于具身智能的 AI 大模型尚未成熟。

王兴兴认为,目前的机器人大模型(具身智能)发展阶段,类似ChatGPT 发布前的1~3年,即业界已明确方向和技术路线,但尚未突破关键临界点。

在王兴兴看来,之所以没达到关键临界点,主要是由于行业对“数据” 的关注度过高,却忽视了模型本身的问题。

王兴兴认为,具身智能发展的关键问题在于模型架构不够完善、缺乏统一性、泛用性,导致能力受限,而且数据还不能完全利用起来。

以当前较受关注的VLA模型为例,王兴兴认为其是 “相对傻瓜式的架构”,其 在真实世界交互中,对数据质量的依赖过高,但适应性不足。因此,他对VLA 模型的应用前景持怀疑态度。

此外,“VLA模型+RL 训练”也是行业常见的优化思路,但他认为,实践表明折让仍然不够。“模型架构必须进一步升级,不能停留在简单组合层面。”王兴兴这样说道。

在王兴兴看来,另一个限制发展因素是“RL Scaling law(缩放定律)”的缺失,这导致机器人尚未解决“从零开始”的魔咒。王兴兴认为,目前机器人在学习新任务时,例如学习一支新的舞蹈或完成一项新的工作,往往需要从零开始训练,这导致了训练效率的显著低下。这是由于机器人控制中“RL Scaling law(缩放定律)” 的缺失造成的。

在王兴兴看来,具身智能的理想状态是“新任务训练基于旧有基础,速度越来越快、效果越来越好”。这一规律在语言模型中已得到充分验证,而在机器人运动控制领域,尚处于起步阶段,不过展现出巨大的潜力,是值得行业深入探索的关键领域。

02 新技术方向:视频生成模型

既然VLA模型模型还不足够优秀,那么什么模型才是方向呢?

王兴兴认为,现阶段看视频生成模型的路线可能比VLA模型更快,收敛概率更大。

其核心逻辑在于:利用视频生成模型预先“模拟生成机器人动作序列的视频”,进而直接指导实体机器人执行相应动作。例如,若指令为“整理房间”,模型可先生成机器人整理房间的虚拟视频,再将视频中的动作转化为实体机器人的控制信号。

不过,王兴兴指出,这一路线也存在一个现实问题:当前视频生成模型过度关注“视频质量”,导致 GPU 消耗较高但对机器人而言,无需高精度视频,只要能驱动动作即可,目前看这一矛盾仍需解决。

03 未来技术重心:模型、硬件与算力网络

王兴兴预判,未来2-5 年,具身智能机器人的发展将聚焦三大方向:

一是,统一的端到端智能机器人大模型。端到端模型是提升机器人能力的关键。未来需重点推动端到端模型的研发,实现 “基于既有训练基础快速学习新技能”,提升模型的通用性和效率。

二是,更低成本、更高寿命的硬件及批量制造。硬件的优化亦是不可或缺的一环。即便是历经百年发展的汽车行业,也仍需不断攻克工程领域的重重难关;对于未来可能达到“数百万、数千万台” 量级的人形机器人,必须解决 “低成本、高寿命” 及 “超大批量制造” 的工程挑战,才能支撑大规模应用。

三是,低成本、大规模的分布式算力网络。机器人本体受限于尺寸和电池容量,无法部署大规模算力,因为“其峰值功耗通常仅 100 瓦左右,相当于几部手机的算力。”

因此,未来需要构建分布式算力网络,例如,工业场景中,可在工厂内部署局部服务器集群,供100 台级机器人就近连接,降低通信延迟;再如,民用场景(如小区)中,可建立区域级算力集群,减少用户的算力建设成本,同时保障延迟和安全性。

在会后采访中,有媒体提到了机器人的价格预期。对此,王兴兴表示,当机器人具备大规模作业能力时,机器人甚至将会是免费的状态,因为“每台机器人出厂后都可以缴税。”

对此,他举了个例子:一台机器人是干什么活的?就可以从它生产的价值中直接扣税。譬如,若有一片荒芜之地,企业派遣机器人前去开垦耕作,那么机器人所创造的部分价值将直接转化为税收。

这个过程快的话可能要2~3年,慢的话可能3~5年,但是我觉得这波浪潮(的到来)大概率不会超过10年。”王兴兴说道。

王兴兴的发言引起了不小的争议。对于智能汽车行业而言,当前VLA+RL是最热门的方向,理想汽车、小鹏、华为、文远知行等多家企业都采用了这一路线或者近似路线。同时,华为、蔚来,以及理想、小鹏也采用了世界模型,不过表述和功能有所区别,有的仅用于模拟训练,有的则直接表述为自动驾驶模型的基座模型。

当然,具身智能的开发逻辑和智能驾驶开发逻辑未必一致,王兴兴的意见也仅仅是一家之眼,后续的技术路线之争,也还需要在实战中见高下。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!