AI热点 3小时前 101 阅读 0 评论

马斯克从英伟达挖人做AI游戏,第一步:研发世界模型

作者头像
量子位

AI技术专栏作家 | 发布了 246 篇文章

马斯克的xAI也入局世界模型了

想必听到这个消息的Meta、Google DeepMind一定会缓缓打出一个问号:冲我们来的?

据《金融时报》(FT)报道,为了增加这场“世界模型大混战”的赢面,今年夏天,xAI已经从英伟达挖来了多名资深研究员来助阵。

另一边,在悄然下场世界模型后,马斯克几天前又在𝕏上再次重申了去年定下的那个“小目标”——

2026年年底前,xAI会发布一款伟大的AI生成游戏。

Stability AI创始人EMostaque在自己的𝕏上列出这样一组数字

OpenAI今年收入约100亿美元,视频游戏行业今年收入约2000亿美元。

马斯克呀马斯克,Attention is all you need(狗头)。

从英伟达那儿挖人,开搞!

世界模型是近两年全球AI巨头&实验室们的新战场,Google DeepMind、Meta、NVIDIA、李飞飞等都在做。

如今,xAI也来了。

而它的第一步,就选择了去英伟达挖老黄墙脚——

今年夏天,xAI至少雇佣了两位来自英伟达的研究人员:Zeeshan PatelEthan He

其中,Zeeshan Patel今年5月硕士毕业于UC伯克利,研究主要面向深度学习、生成模型和物理人工智能。

加入xAI前,他先在苹果AI/ML部门从事基础模型研究,后又加入英伟达研究院从事生成式世界模型研究。

在英伟达工作期间,Zeeshan Patel专注于大规模多模态模型与训练框架的研发

Ethan He,本科毕业于西安交通大学,而后前往CMU攻读计算机视觉的硕士学位,最后满绩毕业。

目前,他的Google Scholar被引数为8495。

2019年到2021年期间,Ethan He在FaceBook AI从事研究工程师,工作内容主要包括大规模视频自监督学习、视频基础模型等。

2023年,他加入英伟达,工作内容均与MoE模型、多模态模型和世界模型有关。

今年7月,他正式加入xAI。

若说这两人有什么共同点,那就是两人此前都在英伟达参与了Omniverse平台的核心开发工作

这个平台是全球最成熟的仿真平台之一,被称作“通往物理世界的数字平行宇宙”。

简单来说,Omniverse是英伟达打造的物理一致性仿真系统,广泛应用于机器人训练、3D 建模、数字孪生、自动驾驶等领域。

它能在虚拟世界中精确地模拟现实物理规律,让AI在不触碰现实的情况下,就能学会如何与世界互动。

——而世界模型需要的就是这样的能力

Omniverse与世界模型训练/评测天然契合,难怪xAI内部人士透露,马斯克计划在xAI将英伟达在图形与物理模拟领域的积累,应用到自家的世界模型体系中。

入局世界模型要干啥?

“世界模型”这个概念,其实最早可以追溯到强化学习,意思是让AI先在脑海中模拟出一个世界,再去规划行动、预测结果。

时至今日,它被不少业内人士视为AGI的核心底座。

AI教母李飞飞对世界模型的定义则是源自于人类自然形成的世界心智模型。

指的是一种AI系统能够真正理解和推理物理3D世界的模型,而不仅仅局限于文本处理。世界模型能让AI理解3D结构、形状和组合性,从而推动机器人技术、创意产业和计算的未来发展。

在李飞飞看来,世界模型不仅能生成和重建持久存在、可导航的3D环境,还能支持多种应用,实现更大规模的虚拟世界和多元宇宙的构建。

在过去一年,这个方向几乎成了AI巨头和实验室的兵家必争之地。

DeepMind推出Genie 3,能从一张图片或一段文字,直接生成可交互的 2D 游戏世界;

Meta发布V-JEPA-2,让模型在视频中预测未来帧、理解物理因果;

英伟达自家也在强化世界模型,用于机器人训练与数字孪生;

……

那么,马斯克携xAI下场,到底想干啥?

知情人士消息,xAI入局世界模型后的的首批落点可能是电子游戏

目前,团队正在尝试让AI自动生成自适应、逼真的3D场景,可以根据玩家行为实时变化的那种。

这与马斯克自己设下的目标完美呼应——到2026年底,推出一款由世界模型驱动的AI生成游戏。

一位用户在𝕏上留言称:“AI在游戏开发中的效率很高,能让创造力自由流动,这很有道理。”

与此同时,xAI内部也正在为此组建一支全模态团队(Multimodal Team),专门研究图像、视频、音频的综合理解与生成。

他们近期公开的招聘信息显示,这支团队包括多个方向:

  • Member of Technical Staff – Multimodal(Audio),职责涵盖音频理解、生成与评测;
  • Member of Technical Staff – Multimodal Understanding,薪资区间18万–44万美元/年,侧重于多模态建模与数据系统。

除此之外,还有一个职位在业内引发热议,Video Games Tutor,即电子游戏导师。

相关招聘页面写得很直接:

时薪45–100美元,向模型讲解电子游戏机制、叙事逻辑、任务设计。

看来,马斯克似乎打算让人类专家教模型怎么玩游戏、怎么设计任务、如何构建可交互世界。

马斯克本人在多次公开发言中提到,xAI的使命是“让AI理解宇宙的本质”。而世界模型正是通向理解宇宙的必经之路。

有了世界模型,AI不再只用来生成内容,而能在内部模拟出一个真实世界的副本。

这意味着它既可以驱动AI游戏,也可以驱动智能体、自动驾驶乃至具身智能机器人。

从这一点上来看,xAI、特斯拉、Neuralink、𝕏之间的关系也变得微妙——

xAI研发模型,特斯拉拥有机器人和自动驾驶数据,Neuralink提供脑机接口𝕏则是社交与实时反馈的平台。

如果这些板块能通过世界模型互通,马斯克的AI帝国,将真正形成闭环

参考链接:

[1]https://www.ft.com/content/ac566346-53dd-4490-8d4c-5269906c64ee

[2]https://x.com/EMostaque/status/1977352468087320714

[3]https://www.zeeshanp.me/research/

[4]https://www.linkedin.com/in/ethanhe42/

本文来自微信公众号“量子位”,作者:衡宇,36氪经授权发布。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!