
智东西
作者 | 程茜
编辑 | 漠影
刚刚过去的国庆假期,将视频生成领域的技术竞赛推向全新高度。
OpenAI率先抛出重磅炸弹,旗舰视频生成模型Sora 2,直言其正“直奔视频领域的GPT-3.5时刻”,并随之推出Sora应用程序。凭“Cameo(引用角色功能)”首周下载量超ChatGPT;随后,马斯克xAI亮出Imagine v0.9,以20秒内快速生成、全用户免费开放的优势予以回应;本月底,国内AI视频创业公司生数科技的Vidu Q2参考生功能也即将重磅亮相……
在这一系列密集的行业动向中,其中尤为突出的是Sora应用的Cameo和Vidu的参考生功能,我们可以窥探到视频生成赛道的新共识,“引用角色形象”正成为技术探索与应用落地的关键方向。
相比于OpenAI,生数科技在参考生视频领域的布局更早。作为全球“参考生视频”概念的首个提出者和开创者,早在2024年9月Vidu就已提出了参考生视频功能。而随着Sora应用程序的落地,中美在AI视频领域的技术与产品较量,也正式进入正面PK的关键阶段。
本月底,Vidu Q2参考生视频即将登场,不仅对于To C小白用户友好,使用门槛大幅降低,而且作为生产力工具,其对于专业、半专业创作者也非常能打,同时对于一致性、精准性、性价比要求较高的广告电商、影视动漫等To B领域的要求也能满足。
下面是创作者陈畅率先借助Vidu Q2参考生功能生成的高燃大片,已经让我们提前感受了Vidu Q2参考生的技术实力。
一、直击视频生成核心痛点,“角色引用”成主流解法,Vidu早有布局
不同于文字、图像生成技术已实现高稳定性、高可控性的生成效果,当前视频生成技术虽正在快速迭代,却仍受多个核心痛点制约,尚未迎来大规模商业化落地的爆发时刻。
首先,文字之间的连接可通过语法、上下文,图像只需明确单一场景的核心信息,而视频的核心价值在于通过连续画面传递完整叙事,往往视频时长增加,就会出现情节割裂、角色行为矛盾、空间错位等问题。
其次,可控性缺失。若视频生成包含元素过多,会受限于模型的理解能力和记忆能力等,再加上普通用户难以通过提示词传达准确的专业术语,会进一步导致生成内容出现偏差。
从当下主流视频生成模型企业的布局来看,引用角色形象这一核心思路,成为解决上述痛点的有效路径,也就是Sora App中的Cameo以及Vidu的参考生功能。
其共同点是支持上传参考图生成视频,能在一定程度上使得最后视频生成都围绕这一元素展开,避免中间出现较大的情节偏差。再加上其有固定的角色特征作为参照,用户可以以画面中内容为核心结合提示词生成同一角色不同的视频画面。
但不同之处在于,Vidu的参考生功能范畴覆盖更为广泛。
Sora App中的Cameo功能,允许用户在应用中进行一次简短的音视频录制,即可以将自己或者授权的其他人直接带入任何Sora生成的场景中。一定程度上可以认为,Cameo的功能是使生成视频中的主体角色与上传图片的主体保持一致,也就是“角色参考”。
而Vidu的“参考生”功能,涵盖了角色、环境、道具等诸多要素来生成视频,参考类型更多,可以为创作者提供更高的自由度和控制力。
AI原生的参考生功能已经成为这场视频生成竞赛中抢占先机的关键,就在本月底,Vidu即将发布的Q2参考生版本,将进一步强化这一优势。
二、从一致性到精细控制:Vidu Q2参考生与Sora 2逐维度拆解
相同参考图片下,Sora 2与Vidu Q2参考生的生成效果各有优劣。 首先明确下OpenAI Sora App中的Cameo与Vidu Q2参考生的具体功能。
从OpenAI的官方博客可以看出,Cameo生成的角色由用户的短视频和音频捕获构建而成,可以被重复使用。且录制视频和音频时,用户需要寻找效果较好的光线、干净的背景、摘下帽子、保持周围环境安静等,才能确保最后生成的主体角色质量更高。
Vidu Q2的参考生功能则支持上传最多7张照片,可以是人物、物体、场景、特效的不同组合,也可以是多个人物,并且能在保持参考图特征的同时,更贴近用户原始输入。
下面就是同样的参考图片、提示词下,Sora 2与Vidu Q2参考生生成的视频实际效果对比,提示词为介绍皇冠:
参考图(由AI生成):

Sora 2生成的视频效果:
Vidu Q2生成的视频效果:
可以看到,两个视频中都切换了远景、近景。Sora 2的优势在于可以音视频直出,画面搭配实时解说,并自动补充大量不同分镜,几乎做到一键成片,但其中不足的地方在于,Sora 2的视频中皇冠样式略微发生改变,还出现了皇冠凭空漂浮在空中的反常理画面。
相比之下,Vidu Q2参考生生成的视频中,主体人物始终手握皇冠,且人物的形象、嘴边的麦克、皇冠的样式始终保持一致,同时人物的眼神也在跟随皇冠的位置变化而移动,使得人物与物品更具有互动感,但不足之处在于,虽然人物的嘴形也在变化,却没有相应的音频生成。
第二个的提示词为:女孩闭上眼睛,身后的云朵飞舞,发出金光。
参考图(由AI生成):

Sora 2生成的视频效果:
Vidu Q2生成的视频效果:
这一案例中,Sora 2生成的人脸与参考图相差较大。Vidu Q2则更好地保持了与参考图人物的完全一致。
总结来看,Vidu参考生的核心优势为突破单一角色引用局限,实现了覆盖角色、道具、场景、特效等创作全要素参考,同时在主体一致性上保持更好。
基于此,创作者无需在多工具间切换寻找资源,仅通过Vidu参考生就能直接引用所需的各类创作要素,并基于这些要素快速生成视频,最终简化创作流程并赋予创作者更高的创作自由度与细节控制力。
三、Vidu Q2参考生三大亮点曝光,月底正式亮相
据了解,Vidu Q2模型的升级让AI视频从视频生成直接迈向演技生成新阶段,而这次参考生功能的Q2版本更新也在原有功能上实现了质的突破,生成的视频一致性依旧保持全球领先、生成速度更快、价格更优惠,同时作为国产AI视频,对于国内用户来说,直接上手可用。
智东西也率先拿到了Vidu Q2参考生的内测资格,提前体验了一波参考生功能的升级。
话不多说,先上实例。
第一个案例是广告电商类的美妆产品多步骤演示。
提示词:图1坐在图3前,先拿起图2的粉底液,用美妆蛋以“点涂+轻拍”动作均匀上脸(特写手部发力细节),接着对着镜子微笑展示妆效(捕捉嘴角上扬+眼神亮泽的表情)。镜头从“手部操作近景→面部上妆中景→微笑特写”切换,全程保持博主妆容、梳妆台物品位置不变。
参考图(由AI生成):
Vidu Q2生成的视频:
最后生成的视频中美妆博主眼睛上的亮片也都进行了复现,且使用的美妆蛋、卧室梳妆台与参考图内容均一致,在人物运动、镜头切换时也没有变形。
第二个案例是知识科普类,科普某手工制品的制作教程等。
提示词:图1在演示皮具缝制:先将图2的皮革对齐,再用针线回针缝(特写针脚密度),全程保持皮革纹理、工具摆放位置不变。
参考图(由AI生成):

Vidu Q2生成的视频:
这一视频中全程的皮革纹理、工具摆放位置并没有发生变化,并且精准的拉近镜头切换特写,人物还有用针线的相应动作。
第三个案例是宠物拟人化剧情:
图1坐在图3的迷你书桌前,前爪搭在图2的笔记本上假装写字(爪子轻划纸面的动态),偶尔抬头歪头(呆萌表情)。镜头先用低角度仰拍模拟宠物视角,再用缓慢推近聚焦写字动作,最后用俯视运镜展示书桌全貌;全程保持柯基帽子不掉、道具位置合理。
参考图(由AI生成):
Vidu Q2生成的视频:
这一视频中客厅背景的绿植、沙发造型,小桌子上的笔记本、笔、橡皮以及柯基头上佩戴的蓝色帽子位置都与参考图一致,且镜头也符合提示词要求的的先用低角度仰拍再全景展示。
三个体验案例中的共同点就是,利用Vidu Q2参考生生成的视频均保持了智东西上传图片的一致性,同时能满足各种镜头角度转换、人物动作变化的需求。Q2参考生在生成速度上也更快,只需十几秒即能快速生成一段5秒视频片段。
这一波Vidu Q2的升级,将再次使得参考生的实用性更进一步,大幅降低视频制作的技术门槛。
Vidu Q2参考生视频已进入发布倒计时,本月底即将揭晓答案,其将用实力证明,中国视频大模型更能打,不只停留在技术层面,更在于落地价值。