本文一次性深扒Yan的仿真-生成-编辑三大内核、400M帧训练数据黑科技,以及对游戏、XR、智能体训练即将带来的冲击。想提前拿到“人人都是造梦师”的门票,从这5000字开始。

最近,腾讯推出了一款互动视频生成系统——Yan,面向游戏、虚拟世界、AIGC等场景,支持高保真、实时、可编辑的互动视频生成(论文地址:
https://arxiv.org/abs/2508.08601v3)。)
本文系统梳理Yan的技术方案,重点解析其在数据采集、AAA级仿真、多模态生成、交互式编辑等方面的核心突破,并展望未来发展方向。
一、什么是互动视频生成(IGV)?
互动视频生成(Interactive Generative Video, IGV [1])是指AI系统能够不断根据用户输入,生成可交互的视频内容。这一范式突破了传统视频生成的静态、单向特性,使内容能够动态响应用户操作,带来个性化、沉浸式的体验。其潜在价值包括:
- 内容创作:极大提升AIGC内容的多样性与可控性,赋能游戏、虚拟世界、影视、教育等领域的创作与交互。
- 智能体训练:为智能体提供无限、可控的仿真环境,推动通用智能体的研究与应用。
- 人机交互:实现更自然、实时的AI-人互动范式,拓展AI在娱乐、社交等场景的边界。
目前主流的互动视频生成方案主要包括:
- 世界模型:如上周新鲜出炉的Genie3 [2],可基于文本/图片生成可交互(可移动探索)环境,支持prompt可控编辑环境内容,但分辨率、交互丰富程度、交互时长等仍有提升空间。
- 基于游戏的互动视频生成:如The-Matrix [3]、Matrix-Game [4]等,聚焦于游戏场景,部分支持实时交互,但在泛化性、高分辨率、复杂物理仿真、内容编辑等方面存在不足。
我们的尝试👇
基于上述背景,我们团队在互动视频生成领域进行了一次系统性尝试,提出了Yan框架。“Yan”(衍)寓意“演化、流变”,象征着内容与现实的不断生成与展开。我们以“高画质、强交互、可编辑”为目标,探索了端到端的互动视频生成新范式,力求推动AIGC迈向下一代开放式、可控的数字内容引擎。
二、技术方案与应用探索
//2.1 总体框架概览

整体框架示意图
Yan整体采用端到端的互动视频生成范式,核心由三大模块组成:Yan-Sim(AAA级仿真)、Yan-Gen(多模态生成)、Yan-Edit(多粒度编辑)。三者均基于从游戏环境(基于元梦之星)中采样而来,大规模高质量互动视频数据集进行训练和协同优化,形成完整的“仿真-生成-编辑”一体化流程。其设计目标是实现高分辨率、低延迟、强交互、可编辑的开放式内容生成。
- Yan-Sim(AAA级仿真):实现高保真、实时的互动视频仿真,精准还原物理机制与用户操作响应,并支持多场景仿真与生成(如草原、城堡、雨林、月球等复杂环境,满足游戏、虚拟世界等高标准需求)。
- Yan-Gen(多模态生成):支持文本、图像等多模态输入,生成多样化、可控的互动内容,能够实现文本驱动的场景生成、跨域融合等多样化内容创作,展现出极强的泛化与可控性。
- Yan-Edit(多粒度编辑):支持结构与风格的实时编辑,用户可通过文本prompt动态修改内容,实现结构与风格的多粒度、实时交互式视频编辑,极大提升了内容创作的灵活性与交互性。
三大模块均依赖于统一的高质量互动视频数据采集与预处理流程,数据集为整个系统提供了坚实的基础。
//2.2 高质量互动视频数据采集

数据采集管线示意图
Yan构建了大规模的高质量互动视频数据集,覆盖90+场景、400M帧(3700小时),具备高分辨率(1080P)、高帧率(30FPS)、高精度动作-图像对齐和丰富动作空间。
- 自动采集管线:基于强化学习与随机策略的探索Agent,自动在现代3D游戏环境中采集多样化互动数据。
- 多重数据过滤:基于视觉、异常、规则三重过滤,剔除渲染失败、卡顿、规则异常等低质样本。
- 均衡采样:对位置、存活、碰撞等属性均衡采样,提升泛化能力。
- 多样动作空间:支持移动、跳跃、俯冲、视角旋转等复杂动作,拓展交互自由度。
数据集对比表:

//2.3 Yan-Sim:AAA级实时仿真及多场景应用

Yan-Sim模型结构示意图
Yan-Sim模块基于高压缩、低延迟3D-VAE与KV-cache shift-window去噪推理,实现1080P/60FPS的高保真实时仿真,支持复杂物理机制与多风格场景。
模型架构:
- 基于自回归扩散模型范式,VAE下采样因子由8提升至32,通道数扩展至16,并在temporal压缩2倍,极大提升推理效率。
- 扩散模型采用空间、动作、时序三重注意力,采用因果时序注意力机制,支持逐帧自回归生成。
推理优化:
- DDIM采样步数降至4,shift-window去噪并行处理不同噪声级帧,KV缓存减少冗余计算,支持每推理一次,就可以出一帧画面。
- 结构剪枝+FP8量化,推理速度提升1.5-2倍,支持多GPU并行推理加速。
特性对比表:

多场景仿真与生成效果:
- 多风格高分辨率场景还原,动作一致性强,物理机制(如惯性、电击、弹跳等)精准模拟。
- 支持无限时长、长视频生成,时空一致性优异。
2.4 Yan-Gen:多模态交互生成与内容扩展

Yan-Gen模型结构示意图
Yan-Gen模块实现了基于文本、图像、动作等多模态输入的实时互动视频生成,具备强泛化与可控性。 能够实现交互场景生成、跨域融合等多样化内容创作。
层次化caption体系:
- 全局caption锚定世界静态属性(布局、风格、光照等),局部caption描述动态事件,防止长时漂移。
- 采用VLM自动标注,98M帧训练数据。
多模态条件注入:
- 文本(umt5-xxl)、图像(ViT-H-14)、动作序列分别编码,通过解耦cross-attention层注入DiT主干。
- 动作条件支持逐帧精准控制,提升交互响应。
自回归与蒸馏优化:
- ODE轨迹采样+block causal attention,训练few-step自回归生成器,DMD蒸馏提升推理效率。
- 单卡12-17FPS,多卡可达30FPS,支持无限时长、实时prompt切换。
多模态内容生成与扩展效果:
2.5 Yan-Edit:多粒度交互编辑与风格创作

Yan-Edit模型结构示意图
Yan-Edit模块实现了结构与风格的多粒度、实时交互式视频编辑,支持任意时刻通过文本prompt修改内容。 用户可通过文本prompt动态添加/替换场景元素、切换渲染风格,极大提升了内容创作的灵活性与交互性。
架构设计:
- 采用“交互机制模拟+视觉渲染”解耦架构,以深度图为中间态连接两个模块
- 交互机制模拟模块基于Yan-Sim,结构prompt通过cross-attention注入,支持结构编辑。
- 视觉渲染模块基于Yan-Gen+ControlNet,style prompt控制风格渲染。
训练与推理:
- 深度图VAE+结构/动作联合训练,风格渲染用VACE [9]开源ControlNet权重,DMD蒸馏few-step生成器。
- 支持任意时刻结构/风格prompt切换,保证编辑内容的交互性与时空一致性。
结构与风格实时编辑效果:
- 结构编辑:动态添加/替换场景元素,实时响应用户操作。
- 风格编辑:多风格切换,支持开放域描述,编辑过程无缝衔接。
3 总结与展望
局限性:
- 长时空一致性仍有提升空间,复杂交互场景下偶有漂移。
- 轻量化与边缘部署待优化。
- 动作空间与交互复杂度受限于底层环境,向真实世界扩展仍需探索。
未来方向:
4 参考文献
[1] Jiwen Yu, Yiran Qin, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, and Xihui Liu. A survey of interactive generative video. arXiv preprint arXiv:2504.21853, 2025a.
[2] Genie 3: A new frontier for world models
[3] Ruili Feng, Han Zhang, Zhantao Yang, Jie Xiao, Zhilei Shu, Zhiheng Liu, Andy Zheng, Yukun Huang, Yu Liu, and Hongyang Zhang. The matrix: Infinite-horizon world generation with real-time moving control. arXiv preprint arXiv:2412.03568, 2024.
[4] Yifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Zedong Gao, Eric Li, Yang Liu, and Yahui Zhou. Matrix-game: Interactive world foundation model. arXiv, 2025.
[5] Mingyu Yang, Junyou Li, Zhongbin Fang, Sheng Chen, Yangbin Yu, Qiang Fu, Wei Yang, and Deheng Ye. Playable game generation. arXiv preprint arXiv:2412.00887, 2024.
[6] Jiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, and Xihui Liu. Gamefactory: Creating new games with generative interactive videos. arXiv preprint arXiv:2501.08325, 2025b.
[8] Genie 2: A large-scale foundation world model
[9] Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, and Yu Liu. Vace: All-in-one video creation and editing. arXiv preprint arXiv:2503.07598, 2025.
本文由人人都是产品经理作者【汪仔2301】,微信公众号:【鹅厂技术派】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。