技术解读 6小时前 100 阅读 0 评论

ACM MM 2025 | 小红书AIGC团队提出风格迁移加速算法STD

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

本论文主要作者来自小红书 AIGC 团队(Dynamic-X-Lab),Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队,致力于推动姿态驱动的人像生成与视频动画技术。他们以高质量、高可控性的生成模型为核心,围绕文生图(t2i)、图像生成(i2i)、图像转视频(i2v)和风格迁移加速等方向展开研究,并通过完整的开源方案分享给开发者与研究者社区。

基于一致性模型(Consistency Models, CMs)的轨迹蒸馏(Trajectory Distillation)为加速扩散模型提供了一个有效框架,通过减少推理步骤来提升效率。然而,现有的一致性模型在风格化任务中会削弱风格相似性,并损害美学质量 —— 尤其是在处理从部分加噪输入开始去噪的图像到图像(image-to-image)或视频到视频(video-to-video)变换任务时问题尤为明显。

这一核心问题源于当前方法要求学生模型的概率流常微分方程(PF-ODE)轨迹在初始步骤与其不完美的教师模型对齐。这种仅限初始步骤对齐的策略无法保证整个轨迹的一致性,从而影响了生成结果的整体质量。

为了解决这一问题,文章提出了单轨迹蒸馏(Single Trajectory Distillation,STD),一个从部分噪声状态出发的训练框架。

为了抵消 STD 引入的额外时间开销,文章设计了一个轨迹状态库(Trajectory Bank),预先存储教师模型 PF-ODE 轨迹中的中间状态,从而有效减轻学生模型训练时的计算负担。这一机制确保了 STD 在训练效率上可与传统一致性模型保持一致。

此外,该工作还引入了一个非对称对抗损失(Asymmetric Adversarial Loss),可显著增强生成结果的风格一致性和感知质量。

在图像与视频风格化任务上的大量实验证明,STD 在风格相似性和美学评估方面均优于现有的加速扩散模型。

  • 论文地址:https://arxiv.org/abs/2412.18945
  • 项目主页:https://single-trajectory-distillation.github.io/
  • 项目 Github: https://github.com/dynamic-X-LAB/Single-Trajectory-Distillation
  • 项目模型:https://huggingface.co/Single-Trajectory-Distillation/Single-Trajectory-Distillation
  • 关键词:AIGC、视频风格迁移、扩散模型加速

STD 与其他方法的差异

如图 2 所示,(a) 中的传统一致性蒸馏方法(Other CMs)从 x_0 加噪得到不同的 x_t,再拟合多条 PF-ODE 轨迹的初始部分,存在轨迹不对齐问题。而在 (b) 中,文章提出的单轨迹蒸馏(Single-Trajectory Distillation, STD)方法则从一个固定的加噪状态 x_(τ_η ) 出发,通过教师模型完整地去噪出多个 x_t,并以此为训练目标,使学生模型在一条完整轨迹上实现自一致性。这种策略有效解决了训练 - 推理路径不一致的问题,提升了整体生成质量。

为了避免从 x_(τ_η ) 开始反复推理带来的训练开销,进一步提出了轨迹缓存库(trajectory bank),用于预存教师模型轨迹中的中间状态,从而保持训练效率不变。同时,引入了非对称对抗损失(asymmetric adversarial loss),对不同噪声级别下的生成图与真实图进行对比,有效提升图像饱和度,减少纹理噪声。

前置理论

【扩散模型】

【轨迹】

【基于部分加噪的编辑】

方法介绍

【单轨迹蒸馏理论】

在扩散模型中,理想情况下反向去噪轨迹应与前向扩散轨迹严格互逆。但实际中,不完美去噪模型会导致:

针对图像 / 视频风格化任务中固定起点 η 的需求,提出基于一致性模型仅在固定起点的单条轨迹上做一致性蒸馏,具体包含两个关键点:

根据第二部分对轨迹的定义,可以写出单轨迹蒸馏损失函数的表达式如下:

为降低蒸馏误差,约束学生模型学习的时间步 s 接近教师步 t:

其中 γ 表示控制目标时间步 s 的取值下限比例因子通过缩短 t 与 s 的距离,可以减小误差上界,同时保留随机性提升模型性能。

【轨迹状态库】

【非对称对抗损失】

其中 F 表示 DINO-v2 模型,D_ψ 表示判别器,ψ 表示判别器的可学习参数,x_r 指对 x_0 加噪 r 步后获得的样本。

实验结果

  • 训练集:Open-Sora-Plan-v1.0.0
  • 测试集:wikiArt(10 张) + COCO(100 张) + 自定义 100 张图像 / 12 个视频及 15 种风格图像的测试集
  • 评估指标:风格相似度(CSD)、LAION 美学评分和时间一致性(Warping Error)指标
  • 对比方法:LCM / TCD / PCM / TDD / Hyper-SD / SDXL-Lightning / MCM

【对比实验】

STD 与当前多种加速方法在 8 步、6 步、4 步下进行对比,在风格相似性和美学分数上达到 SOTA 水平。其中图像生成在 NFE=8 时 CSD 分数比 Hyper-SD 提升↑0.032;视频生成的 Warping Error 达到 0.166,显著优于 MCM 的 0.257。从可视化(图 4)中可以看出 STD 方法的风格质量和图像质量显著更高;在不同 CFG 的定量指标折线图中(图 5)也表现出了更优水平。

视频效果:

<video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v9-web.toutiaovod.com/57d46390395ae9284dd3be640107c4b9/6890847f/video/tos/cn/tos-cn-ve-e5b010/oYdEgbkIevscAgoKlFHb5SEBQD5SfFJahQBDaD/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=4595&bt=4595&cs=0&ds=4&ft=hGkwBy6LRR0s~0C3TDv2Nc.xBiGNbLtxj8dU_4AA3tVJNv7TGW&mime_type=video_mp4&qs=0&rc=N2VpaTk6PGdoOzY8Omg7NkBpM3R3PHY5cnA6NTUzNDs6M0BgNjU1MF8zX18xMGA0L19hYSMybmFzMmRzLjVhLS1kNjBzcw==&btag=c0000e00008000&dy_q=1754297964&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=20250804165924604552A65017F4B61B99"></video>
不支持的音频/视频格式 请试试刷新
<button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播
<button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
播放
00:00 / 00:00 直播
00:00
<button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
进入全屏
<button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
50
    点击按住可拖动视频
    <svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20"> </svg>
    <button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>


    <video class="" playsinline="true" x5-playsinline="true" webkit-playsinline="true" tabindex="2" mediatype="video" src="https://v3-web.toutiaovod.com/bd70e7c24a000a27f9ff8ec638cd7199/6890847f/video/tos/cn/tos-cn-ve-e5b010/ogeFa5B4IShNmDBWNfjrQEHroRjc6D6NkQEgJA/?a=24&ch=0&cr=0&dr=0&er=0&cd=0|0|0|0&br=4222&bt=4222&cs=0&ds=4&ft=hGkwBy6LRR0s~0C3TDv2Nc.xBiGNbLtxj8dU_48N3tVJNv7TGW&mime_type=video_mp4&qs=0&rc=aWk2PDpkZDw7NDtlZWRkaUBpM3hxeWs5cm86NTUzNDs6M0BeYC0yYzQvXi8xXl5iMjYyYSNhbF5uMmRrLjVhLS1kNmFzcw==&btag=80000e00008000&dy_q=1754297964&feature_id=59cb2766d89ae6284516c6a254e9fb61&l=20250804165924B500C6BC1D22C8688972"></video>
    不支持的音频/视频格式 请试试刷新
    <button type="button" class="xg-icon-play"></button> <svg xmlns="http://www.w3.org/2000/svg" class="xgplayer-replay-svg" viewBox="0 0 78 78" width="78" height="78"> </svg>重播
    <button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>
    播放
    00:00 / 00:00 直播
    00:00
    <button type="button" class="xg-get-fullscreen"></button><button type="button" class="xg-exit-fullscreen"></button>
    进入全屏
    <button type="button" class="xg-volume-small"></button><button type="button" class="xg-volume"></button><button type="button" class="xg-volume-mute"></button>
    50
      点击按住可拖动视频
      <svg xmlns="http://www.w3.org/2000/svg" width="20" height="20" viewBox="0 0 20 20"> </svg>
      <button type="button" class="xg-icon-play"></button><button type="button" class="xg-icon-pause"></button>

      【消融实验】

      文章对单轨迹蒸馏方法、轨迹状态库以及非对称对抗损失函数做了消融实验(表 2),当使用轨迹状态库时,抵消了 STD 带来的额外 3.8 倍训练耗时,而 STD 方法和非对称对抗损失函数都显著提升了风格相似性分以及美学分。

      其他重要参数的取值和特性消融实验:

      STD 和非对称对抗损失强度(Fig 6):强度越大,细节和噪点越少,对比度越强,画质越好。

      不同的噪声起点(Fig 8):η 越大,风格化程度越大,但是内容相关性越弱。

      不同的目标时间步 s 的取值下限比例因子(Fig 10):更大的 γ 值带来更低噪声,更强的非对称对抗损失产生更高对比度;γ=0.7 在风格保持与细节呈现间取得最佳平衡。

      非对称对抗损失目标时间步位置(Table 3、Fig 9):当 r

      【可扩展性试验】

      文章进一步讨论了 STD 方法的适用范围,从 STD 的理论推导上看,该方法可用于其他任何 “基于部分噪声的图像 / 视频编辑” 任务,如 inpainting 等。为了验证猜想,文章展示了一组使用 STD 和其他加速方法用于 inpainting 的对比图。如图 7,相比 LCM 和 TCD 方法,STD 的 inpainting 效果更加自然。

      结语

      文章针对基于一致性模型的图像视频风格迁移加速方法,重点优化了风格相似性与美学质量。研究发现前向 SDE 轨迹中不同噪声强度会导致 PF-ODE 轨迹产生差异,据此提出基于特定噪声强度的单轨迹蒸馏方法(STD),有效解决了训练与推理轨迹不对齐问题。为降低 STD 方法的训练成本,创新性引入轨迹库机制,并采用非对称对抗损失提升生成质量。对比实验验证了本方法在风格保持与美学表现上的优越性,系统消融实验证实了各模块的有效性。该方法可扩展至部分噪声编辑任务,文章已探索了基于 STD 的图像修复应用,为后续相关工作提供新思路。

      作者头像

      AI前线

      专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

      246篇文章 1.2M阅读 56.3k粉丝

      评论 (128)

      用户头像

      AI爱好者

      2小时前

      这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

      用户头像

      开发者小明

      昨天

      有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

      作者头像

      AI前线 作者

      12小时前

      我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

      用户头像

      科技观察家

      3天前

      GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!