AI人物 2天前 93 阅读 0 评论

李飞飞终于把空间智能讲明白了:AI 的极限不是语言,世界远比文字更广阔!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

出品丨AI 科技大本营(ID:rgznai100)

前不久,一场汇集了黄仁勋、Hinton、LeCun 等人工智能领域顶尖人物的圆桌讨论,引发了不小的关注。当李飞飞与这些行业巨擘同台时,也确实在社区里激起了一些讨论——准确地说,是争议。

各种社交媒体上,汇成了一个巨大的声音:“她凭什么?”

它不是一句简单的冒犯,更像是一种确认。在今天这个由参数、算力、模型规模定义的 AI 世界里,人们急于弄清楚,谁才是牌桌上真正的玩家。

而许多人眼里,王牌掌握在两种人手中:一种是造出了像 GPT 这样的大模型的人,另一种是造出了能让这些模型飞速运转的 GPU 的人。

在这个剧本里,李飞飞的角色就显得有些模糊。

很多人对她的印象或许还停留在 ImageNet 时代。但 ImageNet 的意义,可能比我们想象的要深远得多。它不仅仅是提供了一个庞大的数据集,更重要的是,它几乎是以一己之力,为当时的计算机视觉领域建立了一套“标准赛道”,一种通过大规模基准测试来驱动整个领域向前滚动的方法论。可以说,今天大模型研究中“数据+算力+模型”并以 Benchmark 来衡量进展的范式,依然能看到当年 ImageNet 留下的深刻烙印。它不是某一个具体的算法,而是改变了游戏规则的基础设施。

那么,在那个里程碑式的工作之后,当下的 AI 世界,几乎所有人都挤在语言模型的赛道里狂奔时,李飞飞却把目光投向了一个更广阔、也更根本的领域:空间智能。

她敏锐地指出了当前 AI 范式的一个核心局限:语言终究是人类为了交流而创造出来的一种抽象信号。自然界中本没有文字,物理世界遵循的是它自身的规律。AI 如果想要真正地理解世界、与世界互动,就不能只停留在文本的符号游戏里,做一个“黑暗中的文字大师”。它需要学会看、学会听、学会理解三维空间中的物体、距离、物理关系和动态交互。

这解释了很多人心中的第一层疑问:ImageNet 之后,李飞飞究竟在做什么?

她和她的团队,以及新创办的公司,正是试图为 AI 补上“物理世界”这一课,让智能走出屏幕,拥有对空间的感知、理解和交互能力。他们想做的,是构建所谓的“世界模型”,一个远比语言模型宏大、复杂得多的目标。

这并非一个轻松的议题,甚至比单纯扩大语言模型的规模要困难得多。它关乎人工智能的下一站将去往何方,是从一个胜利走向另一个胜利,还是需要一次根本性的范式转换。

近日,李飞飞亲自撰写了一篇长文,第一次如此系统、完整地阐述了她对“空间智能”的全部构想,描绘了她眼中人工智能的新疆界。这篇文章,或许就是对外界所有好奇与疑问的最好回应,也终于解答了那个最大的问题:空间智能,到底是什么?

以下,是这篇文章的全文。

跨越语言,构筑世界:空间智能,人工智能的新疆界

1950 年,当计算还不过是自动化算术和简单逻辑的代名词时,艾伦·图灵提出了一个至今仍引人深思的问题:机器能思考吗?

能洞见他所预见的一切,需要非凡的想象力:智能或许某天可以被创造,而非与生俱来。这一洞见后来开启了一场名为“人工智能”(AI)的不懈科学探索。在我投身人工智能领域的 25 年里,图灵的远见卓识至今仍让我备受鼓舞。但我们距离这个目标还有多远?答案并非一言以蔽之。

如今,以大语言模型(LLMs)为代表的顶尖人工智能技术,已经开始改变我们获取和处理抽象知识的方式。然而,它们仍像是黑暗中的文字大师:能言善辩却缺乏经验,知识渊博却脱离现实。空间智能将改变我们创造真实世界和虚拟世界以及与之互动的方式——为叙事、创造、机器人技术、科学发现等领域带来革命性变化。这,就是人工智能的新疆界。

自进入这一领域以来,对视觉和空间智能的追求,一直是指引我的“北极星”。为此,我曾花费数年时间构建 ImageNet,它是首个大规模视觉学习和基准测试数据集;它与神经网络算法以及图形处理器(GPU)等现代计算技术一道,成为催生现代人工智能的三大关键要素之一。

也正因如此,我在斯坦福的学术实验室在过去十年间,一直致力于将计算机视觉与机器人学习相结合。同样为此,我和我的联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 及我在一年多前创立了 World Labs:为了首次将这一可能性完全实现。

在本文中,我将解释什么是空间智能、它为何重要,以及我们正在如何构建能够解锁它的“世界模型”——其影响将重塑创造力、具身智能和人类的进步。

空间智能:人类认知的脚手架

人工智能的发展从未像今天这样激动人心。以大语言模型为代表的生成式AI模型已经从实验室走向日常生活,成为数十亿人进行创造、提升生产力和沟通的工具。它们展现了曾被认为不可能实现的能力,能够轻松生成连贯的文本、海量的代码、逼真的图像,甚至是简短的视频片段。人工智能是否会改变世界,这已不再是个问题。无论以何种标准衡量,它都已然做到了这一点。

然而,仍有许多目标遥不可及。自主机器人的愿景虽然引人入胜,但仍停留在构想阶段,远未成为未来学家长期承诺的那样,在日常生活中普及开来。在疾病治疗、新材料发现和粒子物理学等领域极大加速研究的梦想,在很大程度上仍未实现。而让人工智能真正理解并赋能人类创造者的承诺——无论是帮助学生理解分子化学中复杂的概念,协助建筑师构想空间,支持电影制作人构建世界,还是为任何寻求完全沉浸式虚拟体验的人提供服务——也依然未能兑现。

要理解为何这些能力依然遥不可及,我们需要探究空间智能是如何进化的,以及它如何塑造我们对世界的理解。

长期以来,视觉一直是人类智能的基石,但其力量源于一种更为根本的能力。远在动物学会筑巢、照顾幼崽、用语言交流或建立文明之前,感知这一简单的行为,悄然开启了通往智能的进化之旅。

这种看似孤立的、从外部世界获取信息(无论是一缕光线还是一丝触感)的能力,在感知与生存之间架起了一座桥梁,并且随着世代繁衍,这座桥梁变得愈发坚固和精巧。一层层的神经元在这座桥梁上生长,形成了能够解释世界、并协调生物体与其环境互动的神经系统。

因此,许多科学家推测,感知与行动构成了驱动智能进化的核心循环,也是大自然创造出我们这个集感知、学习、思考和行动于一体的终极物种的根基。

空间智能在定义我们如何与物理世界互动方面扮演着根本性的角色。我们每天都依赖它完成最普通不过的动作:通过想象保险杠与路边之间的间隙逐渐缩小来停放汽车;接住别人从房间另一头扔过来的钥匙;在拥挤的人行道上穿行而避免碰撞;或者睡眼惺忪地将咖啡倒入杯中,甚至无需直视。

在更极端的情况下,消防员在烟雾弥漫、不断坍塌的建筑物中穿行,对结构的稳定性和生存机会做出瞬时判断,并通过手势、身体语言和一种无法用语言替代的共同职业本能进行交流。而孩子们则在学会说话前的数月乃至数年里,通过与环境充满趣味的互动来学习这个世界。所有这一切都发生得如此直观、自然——这是机器尚未达到的流畅程度。

空间智能也是我们想象力和创造力的基础。讲故事的人在脑海中创造出独特而丰富的世界,并利用从古代洞穴壁画到现代电影再到沉浸式视频游戏等多种视觉媒介,将这些世界呈现给他人。无论是孩子们在沙滩上堆砌沙堡,还是在电脑上玩《我的世界》,这种基于空间的想象力,构成了真实或虚拟世界中互动体验的基础。在许多行业应用中,对物体、场景和动态交互环境的模拟,为从工业设计到数字孪生再到机器人训练等无数关键的商业应用提供了动力。

历史上,空间智能在许多定义文明进程的时刻都扮演了核心角色。在古希腊,埃拉托斯特尼将影子转化为几何学——在太阳直射赛伊尼城(Syene)的同一时刻,他在亚历山大港测得太阳光线有 7 度的夹角——从而计算出地球的周长。哈格里夫斯的“珍妮纺纱机”通过一个空间上的洞察彻底改变了纺织业:将多个纺锤并排布置在同一个框架中,使得一个工人能同时纺多根纱线,生产效率提高了八倍。沃森和克里克通过亲手搭建三维分子模型发现了 DNA 的结构,他们不断摆弄金属板和金属丝,直到最终找到了碱基对的空间排列方式。

在每一个案例中,当科学家和发明家需要操控物体、构想结构和对物理空间进行推理时,空间智能都推动了文明的进步——这些都无法仅靠文字来捕捉。

空间智能是我们构建认知所依赖的脚手架。无论我们是被动观察还是主动创造,它都在发挥作用。它驱动着我们的推理和规划,即便是在最抽象的议题上。它对于我们互动的方式——无论是口头还是身体上的,无论是与同伴还是与环境本身——都至关重要。虽然我们大多数人并非每天都在做出埃拉托斯特尼级别的发现,但我们每天也都在以同样的方式思考——通过感官来感知复杂的世界,然后利用对世界如何在物理和空间层面运作的直观理解来认识它。

遗憾的是,今天的人工智能还无法像这样思考。

过去几年里,人工智能确实取得了巨大进步。多模态大语言模型(MLLMs)除了文本数据外,还利用海量的多媒体数据进行训练,从而引入了一些基础的空间感知能力,如今的人工智能已经可以分析图片、回答相关问题,并生成超逼真的图像和短视频。通过传感器和触觉技术的突破,我们最先进的机器人也开始能够在高度受限的环境中操控物体和工具。

然而,坦率地说,人工智能的空间能力距离人类水平还相差甚远。其局限性很快就会暴露出来。在估算距离、方向和尺寸,或通过从新角度重新生成图像来“在脑中”旋转物体时,当前最先进的多模态大语言模型的表现往往不比随机猜测好多少。它们无法走出迷宫、识别捷径或预测基本的物理现象。人工智能生成的视频——尽管尚处起步阶段,并且确实非常酷——往往在几秒钟后就失去连贯性。

尽管当前最先进的人工智能擅长阅读、写作、研究和数据中的模式识别,但这些模型在表现或与物理世界互动时,却存在根本性的局限。我们看待世界的方式是整体性的——不仅关乎我们正在看什么,更关乎万物在空间上如何关联、其意义为何、其重要性何在。通过想象、推理、创造和互动——而不仅仅是描述——来理解这一切,正是空间智能的力量所在。没有它,人工智能就与它试图理解的物理现实脱节。它无法有效地驾驶我们的汽车,无法引导机器人在我们的家庭和医院中服务,无法为学习和娱乐创造全新的沉浸式互动体验,也无法加速材料科学和医学领域的探索发现。

哲学家维特根斯坦曾写道:“我语言的极限,意味着我世界的极限。”我不是哲学家。但我知道,至少对人工智能而言,世界远不止于语言。空间智能代表了超越语言的新疆界——它连接想象、感知与行动,为机器真正改善人类生活开辟了可能,从医疗健康到创意表达,从科学发现到日常辅助。

人工智能的下一个十年:构建真正具备空间智能的机器

那么,我们该如何构建具备空间智能的人工智能?要打造出能够像埃拉托斯特尼那样推理、像工业设计师那样精密设计、像故事讲述者那样富有想象力地创造,并像急救人员那样流畅地与环境互动的模型,其路径何在?

构建具备空间智能的人工智能,需要比大语言模型更为宏大的目标:世界模型。这是一种新型的生成模型,其理解、推理、生成以及与语义、物理、几何和动态上都极为复杂的虚拟或真实世界进行互动的能力,远非当今的大语言模型所能及。该领域尚处萌芽阶段,现有方法从抽象推理模型到视频生成系统不一而足。World Labs 于 2024 年初正是基于这样的信念而创立:基础方法仍在建立之中,这使其成为未来十年最具决定性的挑战。

在这个新兴领域,最重要的是确立指导发展的原则。对于空间智能,我通过三个基本能力来定义世界模型:

  1. 生成性:世界模型能够生成具有感知、几何和物理一致性的世界

    能够解锁空间理解和推理的世界模型,也必须能够生成它们自己的模拟世界。它们必须能够根据语义或感知指令,生成无穷无尽、多种多样的模拟世界——无论是代表真实空间还是虚拟空间——同时保持几何、物理和动态上的一致性。研究界正在积极探索,这些世界在内在的几何结构上,究竟应该被隐式表达还是显式表达。此外,我相信,除了强大的潜在表示之外,一个通用的世界模型还必须能为许多不同的用例生成一个明确、可观察的世界状态。特别是,它对当下的理解必须与它的过去——即导致当前状态的先前世界状态——连贯地联系在一起。

  2. 多模态:世界模型在设计上就是多模态的

    正如动物和人类一样,世界模型应该能够处理多种形式的输入——在生成式 AI 领域中称为“提示词”。在获得部分信息的情况下——无论是图像、视频、深度图、文本指令、手势还是动作——世界模型都应能预测或生成尽可能完整的世界状态。这要求它既能以真实视觉的保真度处理视觉输入,又能同样自如地解释语义指令。这使得智能体和人类都能够通过多样的输入与模型就世界进行沟通,并反过来接收多样的输出。

  3. 交互性:世界模型能够根据输入的动作输出下一个状态

    最后,如果动作和/或目标是给到世界模型的提示词的一部分,那么它的输出必须包含世界的下一个状态,无论是隐式还是显式表示。当仅给定一个动作(无论有无目标状态)作为输入时,世界模型应该产生一个与世界先前状态、预期的目标状态(如果有的话),以及其语义含义、物理定律和动态行为相一致的输出。随着具备空间智能的世界模型在推理和生成能力上变得更加强大和稳健,可以想见,在给定一个目标的情况下,世界模型本身将不仅能够预测世界的下一个状态,还能基于新状态预测下一步的动作。

这一挑战的范围超过了人工智能以往面临的任何挑战。

语言纯粹是人类认知的一种生成现象,而世界则遵循着远为复杂的规则。例如,在地球上,引力支配着运动,原子结构决定了光如何产生颜色和亮度,无数的物理定律制约着每一次互动。即使是最奇幻、最具创意的世界,也是由遵守其自身物理定律和动态行为的空间物体和智能体构成的。

要将所有这些——语义、几何、动态和物理——一致地协调起来,需要全新的方法。表示一个世界的维度,远比表示像语言这样的一维序列信号要复杂得多。要实现能够提供我们人类所享有的那种通用能力的世界模型,将需要克服几个巨大的技术障碍。在 World Labs,我们的研究团队正致力于朝着这个目标取得根本性的进展。

以下是我们当前研究课题的一些例子:

  • 一种新的、通用的训练任务函数:定义一个像大语言模型中的“下一词元预测”那样简洁优雅的通用任务函数,一直是世界模型研究的核心目标。其输入和输出空间的复杂性,使得这样一个函数的构建本身就更具难度。但尽管仍有许多未知尚待探索,这个目标函数及相应的表示方法必须能反映几何与物理定律,尊重世界模型作为想象与现实的具身化表示这一根本性质。

  • 大规模训练数据:训练世界模型需要比文本整理复杂得多的数据。好消息是:海量的数据源已经存在。互联网规模的图像和视频集合代表了丰富且易于获取的训练材料——挑战在于开发能够从这些二维的、基于图像或视频帧的信号(即 RGB)中提取更深层空间信息的算法。过去十年的研究已经显示了在语言模型中,数据量和模型大小之间的“规模法则”的力量;解锁世界模型的关键,在于构建能够以同等规模利用现有视觉数据的架构。此外,我不会低估高质量合成数据以及深度和触觉信息等额外模态的力量。它们在训练过程的关键步骤中,对互联网规模的数据起到了补充作用。但前进的道路依赖于更好的传感器系统、更稳健的信号提取算法,以及远为强大的神经模拟方法。

  • 新的模型架构和表示学习:世界模型的研究将不可避免地推动模型架构和学习算法的进步,特别是超越当前的多模态大语言模型和视频扩散范式。这两种范式通常将数据标记化为一维或二维序列,这使得一些简单的空间任务变得异常困难——比如,在一段短视频中数出不重复的椅子数量,或者记住一个小时前房间的样子。替代性架构可能会有所帮助,例如用于标记化、上下文和记忆的具备三维或四维感知能力的方法。例如,在 World Labs,我们最近在一款名为 RTFM(Real-Time Frame-based Model)的实时生成式帧基模型上的工作就展示了这种转变,它使用基于空间的帧作为一种空间记忆形式,以实现高效的实时生成,同时保持生成世界中的持久性。

显然,在我们能通过世界建模完全解锁空间智能之前,仍面临着艰巨的挑战。这项研究不仅仅是一项理论探索,它是一个新型创意和生产力工具的核心引擎。而 World Labs 内部的进展令人鼓舞。我们最近向少数用户展示了 Marble 的一瞥,这是有史以来第一个可以通过多模态输入提示,来生成并维持一致三维环境的世界模型,供用户和故事讲述者在他们的创意工作流中进行探索、互动和进一步构建。我们正在努力,希望很快能将其向公众开放!

Marble 只是我们创造一个真正具备空间智能的世界模型的第一步。随着进展加速,研究人员、工程师、用户和商界领袖们都开始认识到其非凡的潜力。下一代世界模型将使机器能够在全新层面上实现空间智能——这一成就将解锁当今人工智能系统中仍然普遍缺失的关键能力。

用世界模型为人类构建一个更美好的世界

发展人工智能的动机至关重要。作为帮助开启现代人工智能时代的科学家之一,我的动机一直很明确:人工智能必须增强人类的能力,而非取而代之。

多年来,我一直致力于使人工智能的开发、部署和治理与人类的需求保持一致。如今,关于技术乌托邦和末日论的极端叙事比比皆是,但我继续持有一种更为务实的观点:人工智能由人开发,为人所用,并由人治理。它必须始终尊重人的能动性和尊严。它的魔力在于扩展我们的能力,让我们更有创造力、更能互联、更有效率、更有成就感。

空间智能代表了这一愿景——人工智能赋能人类的创造者、照护者、科学家和梦想家,去实现曾经的不可能。正是这一信念,驱动着我将空间智能作为人工智能下一个伟大疆界的承诺。

空间智能的应用横跨不同的时间线。创意工具正于此刻涌现——World Labs 的 Marble 已经将这些能力交到了创造者和故事讲述者的手中。随着我们不断完善感知与行动之间的循环,机器人技术代表了一个雄心勃勃的中期目标。而最具变革性的科学应用将需要更长的时间,但它们有望对人类的繁荣产生深远影响。

在所有这些时间线中,有几个领域因其重塑人类能力的潜力而脱颖而出。这需要巨大的集体努力,远非一个团队或一家公司所能实现。它需要整个 AI 生态系统的参与——研究人员、创新者、企业家、公司,甚至政策制定者——共同为一个共同的愿景而努力。但这个愿景值得我们去追求。

以下是这个未来所包含的内容:

创造力:为叙事和沉浸式体验注入超能力

“创造力是智慧在玩耍。” 这是我的偶像阿尔伯特·爱因斯坦的名言之一,也是我最喜欢的一句话。远在书面语言出现之前,人类就在讲述故事——将它们画在洞穴墙壁上,代代相传,在共同的叙事之上建立起整个文化。故事是我们理解世界、跨越时空建立联系、探索人性意义的方式,最重要的是,是我们寻找生命意义和内心之爱的方式。今天,空间智能有潜力改变我们创造和体验叙事的方式,这种方式既尊重其根本重要性,又将其影响从娱乐扩展到教育,从设计延伸到建筑。

World Labs 的 Marble 平台将为电影制作人、游戏设计师、建筑师和各类故事讲述者提供前所未有的空间能力和编辑可控性,让他们能够快速创建和迭代可完全探索的三维世界,而无需传统三维设计软件的繁重负担。创造行为本身依然如故,充满活力且富有人性;人工智能工具只是放大并加速了创造者所能达成的成就。这包括:

  • 新维度的叙事体验:电影制作人和游戏设计师正在使用Marble来构想完整的世界,而不受预算或地理位置的限制,探索在传统制作流程中难以实现的各种场景和视角。随着不同形式的媒体和娱乐之间的界限日益模糊,我们正在接近一种融合了艺术、模拟和游戏的全新互动体验——个性化的世界,其中任何人,而不仅仅是工作室,都可以创造并栖居于自己的故事之中。随着将概念和故事板提升为完整体验的更新、更快捷的方式的出现,叙事将不再局限于单一媒介,创作者可以自由地在无数的界面和平台上,构建拥有共同主线贯穿的世界。

  • 通过设计实现空间叙事:基本上,每一个制造出来的物体或建造出的空间,在其实体化之前都必须在虚拟三维环境中进行设计。这个过程迭代性强,且在时间和金钱上都成本高昂。有了具备空间智能的模型,建筑师可以在投入数月进行设计之前快速构想结构,漫步于尚不存在的空间之中——这本质上是在讲述我们未来可能如何生活、工作和聚集的故事。工业设计师和时尚设计师可以瞬间将想象转化为形态,探索物体如何与人体和空间互动。

  • 全新的沉浸式和互动体验:体验本身,是我们这个物种创造意义最深刻的方式之一。在整个人类历史中,只有一个单一的三维世界:我们共同生活的这个物理世界。直到近几十年,通过游戏和早期的虚拟现实(VR),我们才开始瞥见共享我们自己创造的替代世界意味着什么。现在,空间智能与VR和扩展现实(XR)头显、沉浸式显示器等新形态设备相结合,以前所未有的方式提升了这些体验。我们正迈向一个未来,在那里,步入一个完全实现的多维世界,将变得像打开一本书一样自然。空间智能让世界构建不再仅仅是拥有专业制作团队的工作室的专利,而是面向个人创作者、教育者以及任何有愿景希望分享的人。

机器人技术:行动中的具身智能

从昆虫到人类,动物都依赖空间智能来理解、导航并与它们的世界互动。机器人也不例外。自该领域诞生之初,拥有空间感知能力的机器就一直是人们的梦想,这也包括我和我的学生及合作者在斯坦福研究实验室的工作。这也是为什么我对利用World Labs正在构建的这类模型来实现这一可能性感到如此兴奋。

  • 通过世界模型规模化机器人学习:机器人学习的进展取决于一个可行的、可规模化的训练数据解决方案。考虑到机器人需要学习理解、推理、规划和互动的可能性状态空间极其巨大,许多人推测,需要结合互联网数据、合成模拟以及对人类演示的真实世界捕捉,才能真正创造出具有泛化能力的机器人。但与语言模型不同,当今的机器人研究缺乏训练数据。世界模型将在此扮演决定性角色。随着它们感知保真度和计算效率的提高,世界模型的输出可以迅速弥合模拟与现实之间的差距。这反过来将有助于在无数的状态、互动和环境模拟中训练机器人。

  • 伙伴与协作者:机器人作为人类的协作者,无论是在实验室工作台旁协助科学家,还是帮助独居老人,都可以补充那些急需更多劳动力和生产力的领域。但要做到这一点,需要机器人具备能够感知、推理、规划和行动的空间智能,同时——这是最重要的——与人类的目标和行为保持共情的一致。例如,一个实验室机器人可以处理仪器,让科学家专注于需要灵巧性或推理的任务;而一个家庭助理可以帮助老年人做饭,而不会削弱他们的乐趣或自主性。能够预测下一个状态甚至可能是与这种期望相符的动作,这样真正具备空间智能的世界模型,对于实现这一目标至关重要。

  • 扩展具身形态:人形机器人在我们为自己构建的世界中扮演着一定角色。但创新的全部益处将来自更多样化的设计:递送药物的纳米机器人、穿越狭窄空间的软体机器人,以及为深海或外太空建造的机器。无论其形态如何,未来的空间智能模型都必须整合这些机器人所处的环境以及它们自身的具身感知和运动。但开发这些机器人的一个关键挑战是,缺乏适用于这些多种多样的具身形态的训练数据。世界模型将在为这些努力提供模拟数据、训练环境和基准测试任务方面发挥关键作用。

更长远的未来:科学、医疗和教育

除了创意和机器人应用,空间智能的深远影响还将延伸到那些人工智能可以增强人类能力、从而拯救生命和加速发现的领域。我将在下面重点介绍三个具有深度变革潜力的应用领域,但毋庸置疑,空间智能的用例在更多行业中都极为广阔。

在科学研究中,具备空间智能的系统可以模拟实验,并行测试假设,并探索人类无法进入的环境——从深海到遥远的行星。这项技术可以改变气候科学和材料研究等领域的计算建模。通过将多维模拟与真实世界数据收集相结合,这些工具可以降低计算门槛,并扩展每个实验室能够观察和理解的范围。

在医疗健康领域,空间智能将重塑从实验室到病床边的每一个环节。在斯坦福,我和我的学生及合作者多年来与医院、养老机构以及居家患者共事。这段经历让我确信空间智能在此处的变革潜力。人工智能可以通过多维度建模分子相互作用来加速药物发现,通过帮助放射科医生在医学影像中发现模式来增强诊断,并实现环境监测系统,在不取代治愈所必需的人文关怀的前提下,为患者和护理人员提供支持,更不用说机器人在各种不同场景下帮助我们的医护人员和患者的潜力。

在教育领域,空间智能可以实现沉浸式学习,使抽象或复杂的概念变得具体可感,并创造出对我们大脑和身体学习方式至关重要的迭代式体验。在人工智能时代,更快、更有效的学习和技能重塑的需求,对于学龄儿童和成年人都尤为重要。学生可以在多维度中探索细胞的运作机制或漫步于历史事件之中。教师可以获得通过互动环境进行个性化教学的工具。从外科医生到工程师的专业人士,都可以在逼真的模拟中安全地练习复杂技能。

在所有这些领域,可能性是无限的,但目标始终如一:人工智能应增强人类的专业知识、加速人类的发现、并放大人类的关怀——而不是取代作为人类核心的判断力、创造力和同理心。

结语

过去十年见证了人工智能成为一种全球现象,以及技术、经济乃至地缘政治的一个转折点。但作为一名研究者、教育者,以及现在的创业者,最能激励我的,仍然是图灵 75 年前那个问题背后的精神。我依然怀有他那份好奇心。正是这份好奇心,让我每天都为空间智能这一挑战而充满活力。

历史上第一次,我们有望制造出与物理世界如此协调的机器,以至于我们可以依赖它们作为我们应对最大挑战的真正伙伴。无论是在实验室里加速我们对疾病的理解,彻底改变我们讲述故事的方式,还是在我们因疾病、受伤或年老而最脆弱的时刻给予支持,我们正处在一项能够提升我们最珍视的生活方面的技术的前沿。这是一个关于更深刻、更丰富、更强大的人生的愿景。

在自然界于近五亿年前在远古动物身上释放出空间智能的第一缕微光之后,我们有幸成为这一代技术专家中的一员,或许很快就能赋予机器同样的能力——并有幸利用这些能力为世界各地的人们谋福祉。我们对真正智能机器的梦想,若没有空间智能,将是不完整的。

李飞飞原文链接:
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

【活动分享】2025 年是 C++ 正式发布以来的 40 周年,也是全球 C++ 及系统软件技术大会举办 20 周年。这一次,C++ 之父 Bjarne Stroustrup 将再次亲临「2025 全球 C++及系统软件技术大会」现场,与全球顶尖的系统软件工程师、编译器专家、AI 基础设施研究者同台对话。

本次大会共设立现代 C++ 最佳实践、架构与设计演化、软件质量建设、安全与可靠、研发效能、大模型驱动的软件开发、AI 算力与优化、异构计算、高性能与低时延、并发与并行、系统级软件、嵌入式系统十二大主题,共同构建了一个全面而立体的知识体系,确保每一位参会者——无论是语言爱好者、系统架构师、性能优化工程师,还是技术管理者——都能在这里找到自己的坐标,收获深刻的洞见与启发。详情参考官网:https://cpp-summit.org/

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!