刚刚，好莱坞特效师展示AI生成的中文科幻大片，成本只有330元

机器之心报道

机器之心编辑部

多模态的生成，是 AI 未来的方向。

最近，AI 领域的气氛正在发生微妙的变化。比如，刚刚推出了 Grok 4 的 xAI 却在重点宣传他们的视频生成模型 Grok Image。

与此前使用文字提示生成视频的方式不同，新一代的工具已经实现全链路覆盖：先用文字或语音生成图像，再用图像生成视频。你也可以直接上传图片来生成视频，还能自带音效，然后一键发到社交媒体疯狂转发。

如果说很长一段时间里，我们印象中的 AI 还停留在写稿子、画张图，那么现在，它们已经能一键生成一部「电影级大片」了。不得不说，这就像是正在进行的一场工业革命：过去需要整支团队、大量资金和很长周期才能完成的创意性工作，现在只需要一张图片、一段文本指令就能实现。

就在今天下午，百度把视频生成 AI 技术推向了新的高度，其全球首发中文音视频一体化模型百度蒸汽机（MuseSteamer）2.0，实现了生成视频中人物口型、表情、动作的毫秒级同步。

这个 7 月初首次亮相的视频生成模型，从刚开始合成高质量音效到如今音画高度一致，完成了质的飞跃，让国产 AI 视频真正迈入到了「有声有色」的全新阶段。

百度蒸汽机全系视频模型 & 应用升级发布会现场。

在人物口型与语音毫秒级对齐之外，表情、动作同样自然流畅，连运镜都像是出自大师之手。从角色对白到镜头推进，仿佛背后真有一个经验丰富的导演在操控。

此次，百度蒸汽机 2.0 对 Turbo 版、Lite 版、Pro 版及有声版本来了一波全方位升级，并全部开放给用户使用。各个模型版本在视频分辨率、生成时长以及主打特性上各有侧重，为不同创作需求提供了灵活选择，其中：

Turbo 版可生成分辨率 720p 和时长 5s 的视频，适合快速体验与广泛应用；
Lite 版是 Turbo 更轻量级的版本，生成速度更快，成本更低，适合追求效率和性价比的用户使用；
Pro 版输出分辨率 1080p 和时长 5s，主打高分辨率与电影级质感，适合追求高画质的创作者；
最后是有声版，分辨率 720p 和时长 5s/10s，专注于音画一体的沉浸式体验，是此次的重头戏。

与此同时，百度蒸汽机 2.0 在价格这块也极具竞争力，全系价格仅为国内主流竞品的 70%，Turbo 版生成 5 秒有声视频限时价格仅为 1.4 元，这就为用户带来了更高的性价比。

百度商业体系商业研发总经理刘林在活动中

目前，用户既可以在百度搜索、百度 APP 以及各个手机浏览器的百度搜索入口直接进行体验，也可以登录百度蒸汽机的应用平台「绘想」进行创作。

绘想平台地址：https://huixiang.baidu.com/

一张图、一段话，便能生成有声视频。真的有那么神奇吗？带着这个疑问，我们对百度蒸汽机 2.0 来了波实测。

第一手实测

AI 生成的人物对话，就像在演情景剧

在「绘想」用户界面，我们可以看到，百度蒸汽机 2.0 全系模型现已正式上线。

用户上传的首帧图支持 JPEG、PNG、WEBP 等多种格式，并且可以根据自己的需求自由选择是否加入背景音。

我们「牛刀小试」，来个单人吃播场景，音画同步的效果可以说是杠杠的。

动作整体保持流畅，画面清晰度和亮度都比较稳定，没有明显的闪烁或抖动；眨眼、嘴角咀嚼的一些细小动作也让人物更加地鲜活。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

不过，既然百度蒸汽机 2.0 有声版的核心亮点之一是「多人对话互动」，我们重点测了一波多人场景，看看它是否能拿捏住不同角色和复杂语境。

我们先让模型复现 OpenAI 发布 o1 时的景象，将 o 系列前核心架构师 Hyung Won Chung 的介绍转换成中文，说起来还是很溜的。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

最近国产动画电影《浪浪山小妖怪》大卖，我们找一个截图，让几位主角（小猪妖、蛤蟆精、黄鼠狼精和猩猩怪）来场对话。

整体看下来，动作切换没有出现明显的「卡顿」或机械感，流畅度很高；此外，各个主角的面部细节与神态转换也很自然。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

打了一场大胜仗的 AI「丞相」，开心地扇着小风扇，终于可以享受享受了。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

除了中文，英文语境同样可以 hold 住。多个人加上多个动物，也能表现出稳定的效果，猫头鹰的脑袋在以正确的方式转动。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

侧脸场景也能稳稳拿下。最近，OpenAI 被 Meta 挖人挖麻了，双方在人才战中火药味十足。这两家 AI 巨头的 CEO 面对面坐下来之后，会发生怎样有趣的对话呢？

口型与声音的同步虽不如正脸那样严丝合缝，但保持了基本的自然衔接，两人的动作与神态演绎得相当到位，包括肢体起伏、眨眼细节，更贴近真实场景。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

进一步测试中，我们尝试了不同运镜语言下的画面生成。

例如，生成一段车水马龙的延时摄影，它能精准模拟车流的动态变化和时间流逝的效果，红白交织的车灯在画面中迅速闪现，呈现出延时摄影中常见的快速移动感和光影交错的美感，画面自然连贯，几乎看不出什么瑕疵。

同时，背景音的加入也为整体画面增添了真实感。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

提示词：快速的延时摄影，熙熙攘攘的车流极快速行驶，出现一道道红白相间的灯光，车辆行驶的声音需背景音

在多个镜头语言叠加的场景中，模型同样表现出色。

比如下面这则视频，镜头一开始聚焦于男人，随后平滑转移到身后的女孩，镜头推拉与焦点切换的过程都非常流畅，画面丝毫没有出现崩坏或突兀的情况。

不支持的音频/视频格式请试试刷新

<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播

播放

00:00 / 00:00 直播

00:00

进入全屏

点击按住可拖动视频

提示词：聚焦于看向女孩的男人，镜头焦点随后转移到女孩身上，她自信地看向镜头并摆出姿势

经过数轮测试，我们发现百度蒸汽机 2.0 的主要优势在于一步到位 —— 相比于其他视频生成模型，它生成的内容音画俱全，而且需要再次调整的地方较少，经常能够达到直接可用的程度。

为让 AI 学会「编剧」，革新模型架构

从最初只能生成扭曲画面、配点塑料音效 bgm，到如今的电影级运镜，人物声音精准对上口型，AI 视频生成需要跨越一条艰难的技术鸿沟。要真正做到「有声有色」，模型必须同时攻克以下两大核心难题。

一是时序对齐，视频是按帧生成的，而语音是连续波形，这就导致两者的采样率和时间粒度不同。因此，音画同步首要解决的便是口型与语音的毫秒级对齐，较高的延迟会给人「口型对不上声」的不适感。二是多模态特征融合，语音不单单要对上口型，其自身还承载了节奏、情感、力度，它们与表情、动作、环境的协调决定了画面是否自然，因此模型要能理解并生成跨模态细粒度特征，比如语调对应的面部微表情变化。

此外，模型还要解决长时序生成与连贯性，数秒甚至十数秒内保持音画一致；环境音效与动作的匹配，如走路有脚步声、门开有开门声；以及多角色场景的交互，要精确定位到谁在说话、谁在听，保证不同声音与对应人物同步，避免多人口型重叠或者角色错位。

今年 5 月推出的谷歌 Veo 3 解决了音画同步面临的绝大多数挑战，但仍有不足，比如聚焦单人场景，多角色交互虽然也能生成，但规划性与自然度不足。另外，它虽支持多语言，但非英文场景体验很差。这些都限制了本土创作者的发挥空间，于是更符合「中国创作者体质」的百度蒸汽机应运而生。

作为国内首个支持声画同步的视频生成模型，蒸汽机的参数体量达到了百亿，在实现画面与音效、人声协同创作的同时，更在多角色互动、丰富运镜、跨场景表达方面深度优化。此前在权威视频生成评测基准的图生视频榜单 VBench I2V 中，蒸汽机 1.0 以 89.38% 的总分成为了全球第一。

榜单地址：https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

2.0 版的成绩我们暂时还不知道，不过在实际体验上，新版本的蒸汽机相对于 1.0 版在指令遵循、运镜能力、叙事流畅度等维度上面取得了显著提升。

从数据到模型，百度蒸汽机 2.0 在技术上带来了一系列进步。

在数据方面，模型利用大量多模态数据进行了训练。在构建数据集时，工程师利用多模态理解模型、语音识别模型对海量视频语料的多模信号进行抽取、数据清洗和对齐，其中包括内容、主体、人声、台词和环境音的抽取和对齐。百度重点打造了面向中文语音和语境的有声视频模型，模型训练加入了海量精选的中文语料库，实现了 Veo 3 等模型目前不支持的中文能力。

同时，百度也完成了一些数据生成工作，通过少量专业人工精标，训练出专精的镜头语言理解模型，进而产出海量的运镜训练数据。

在实现视频内容中多角色身份、情感和互动逻辑的统一规划时，我们会面临一系列的新挑战，如角色规划编排的合理性：需要让 AI 能够准确理解用户的输入，确定「谁来说」、「什么时候说」；同时也要保证生成角色形神音容的一致性，解决角色的音色、语调、动作和表情跟用户输入表达匹配度，以及多角色对话的自然度。

百度蒸汽机 2.0 重点优化了角色间交互的自然度和一致性，以保证有声视频的可用率。

在模型架构方面，蒸汽机首创了 LMMP（Latent Multi-Modal Planner），能让 AI 自行规划出生成内容里的多个角色身份、他们的台词、情感以及互动逻辑，带来协调一致的画面生成，呈现出更真实、更具表现力的多人对话互动。

作为一个基于扩散架构的规划思考模型，LMMP 在视频生成前期会先生成规划思考内容，再基于思考内容在扩散中后期完成视频生成。它最大的特点是将「思考能力」融入视频生成模型中，在叙事逻辑、镜头衔接、动作合理性等方面保持更强的一致性和可控性。

此外，在完整的音视频一体化生成系统中，Planner 和视频生成是端到端训练优化，以多目标的方式保障规划思考与视频内容的正确性。规划层的思考与生成层的执行相互校正，保证最终输出的视频在语义和逻辑等方面更加准确与可靠。

百度工程师表示，未来他们还希望结合长视频生成技术来实现更好的故事续写和全局呈现。或许过不了多久，我们就能够欣赏到 AI 生成的长镜头视频。

需求驱动

AI 的多模态还能更实用

不同于「实验室里的模型」，蒸汽机开创了应用驱动模型研发的新范式，即由应用需求牵引、从百度自身生态里生长出来。该模型在追求技术指标之外，紧扣百度现有的搜索、内容、商业和云生态，形成了场景催生模型 —— 模型反哺业务的应用闭环。

目前，蒸汽机模型已经深度融入到百度移动生态中，还进一步强化了百度的全链路多模态体验，让搜索更具表现力，让内容更具创造力，让商业更具想象力。对于用户和企业而言，也获得了更强的创造力和生产力工具。

创作门槛进一步降低，更多中小型创作者以及普通用户都有机会参与到专业级视频的生成中，真正实现「人人皆可导演」。企业借助蒸汽机，可以在商业营销、产品推广等相关应用场景中，以更低的成本、更快的周期产出高质量视频内容。