AI热点 11小时前 153 阅读 0 评论

如何使用AI生成解说漫画视频的全流程拆解分享

作者头像
人人都是产品经理

AI技术专栏作家 | 发布了 246 篇文章

AI赋能内容创作早已不是新鲜事,但如何真正“快速高质”产出一条可分发的解说漫画视频?本篇将拆解一个完整流程,从文案生成、脚本设计、漫画创作到视频剪辑与配音,帮助你理解文生视频的全链路操作方式,探索如何将AI工具变成你的创作助理。

开头先啰嗦两句,之前我的很多关于AI的分享,内容主要是涉及到AI的业界进展和个人研究的心得。期间时不时就有朋友问我说能不能讲讲日常使用AI的一些心得技巧。于是乎,我计划开启一个新的系列——“AI应用教学”,计划是聚焦到一个小的应用场景,全流程拆解它的步骤,既讲操作,也讲过程心得经验。

希望大家会喜欢。

场景拆解

我在之前发布的关于探讨假如AI可以完美复刻过世之人的视频中,就插入了一段关于“忒修斯之船”的解说漫画视频。后来就有朋友好奇,这样的解说漫画视频,是怎么制作出来的?于是,我也就顺着这次机会,打算开启一个新的系列“AI应用教学”。不定期地把我在日常中应用AI的一些场景或技巧,其中的一些落地细节,全流程地一一整理,分享给大家。

回到我们这次要分享的场景——解说漫画视频,先说说它的适用场景:针对一些相对通行的概念或事件,进行动画化的演示说明。“相对通用”,意味着我们只需要给AI说明该概念即可,而不必去详细构想每一幅画面。动画化演示,意味着是“先生图再图生视频”,“图生视频”尤其是动画,对真实性要求也没这么高,当前的AI是完全可以胜任的。我全程使用的是AI产品,是字节跳动出品的“豆包”。

具体而言,我们可以将这个场景,拆分为三个步骤:

  1. 针对要解说的“概念”,用AI拆解说明步骤并生成对应的图片。
  2. 针对各个图片,生成动态的视频。
  3. 将各个视频进行拼接,并配上配乐、旁白、字幕等内容,剪辑成片。

接下来,我们就针对这些步骤,进行详细介绍。

第一步:生成图片

第一步先使用AI对我们要解说的概念或事件进行“步骤拆解”,并基于拆解的步骤,生成对应的配图。这里严格来讲,步骤拆解、生成配图,是“两个步骤”。前面我们就有提到,对于相对通行的概念或事件,比如我本次想要解说的是哲学上著名的“忒修斯之船”悖论,AI预训练的内容肯定是有包含的。所以我在操作时就将它合并为一步直接进行处理了。

比例 「9:16」帮我创作一系列的漫画风格的图片,介绍“忒修斯之船”悖论(以及它的另外组建新船延伸讨论),上面不要有任何文字

如各位所见,我的提示词相当地简单。当然,如果你要解说的概念或事件比较陌生,也可以先通过向AI描述,让AI来拆解具体步骤(可以告诉AI后续需要制作解说漫画,具体需要AI拆解为五个步骤之类的)。拆解后再将每一张图片的内容合并,作为生成图片的提示词。

当然,生成图片这里仍然有可能遇到生成出来的图片并不合我们心意,比如我生成的第一个版本,我就觉得画面过于复杂。此时就要尝试让AI多生成几次,挑选合适的版本(业内俗称“抽卡”)。至于具体如何操作,就要看遇到的“不合心意”的情况,比如风格是对的只是不够美观,那就直接再次生成;又比如风格或内容方向不对,那么就修改提示词后再次生成。而豆包是支持直接通过对话来修改图片的,因此我也就偷了个懒,直接通过对话来引导豆包生成其他的风格的图片了。

经过3次的对比,我最终挑选了“简笔画”这个风格的图片,作为下一步“图生视频”的素材。(实操过程中还有针对个别图片进行进一步调整,此处不再一一展示。)

第二步:图生视频

完成了图片素材的生成,就可以进入到第二步,“图生视频”。具体的方式是将生成的每张图片分别作为该次视频生成的参考图片,并补充希望转成视频后,画面如何运动的描述,也就是对应的提示词。

类似的任务,目前国内的各大视频生成AI产品都可以满足,包括我前面用来生成图片的豆包,它也可以支持“图生视频”。我们只需要选择“视频生成”的技能,点击打开具体的图片,将其添加为参考图,再加上对应的视频画面描述即可(比如我截图描述的就是“帆船在大海中航行”)。如果各位使用的是其他的AI产品,操作过程应该也是类似的,只不过需要多一步“下载再上传图片”的操作而已。

同样地,如果遇到生成出来的视频并不合我们心意,处理方法和前面所说的类似,“抽卡”应对之。而由于我这次的图片相对简单,所以也没有在这里花费太多时间。不过得多提一句是,生成视频所需要耗费的资源(Token)远高于生成图片。因此在前面描述画面时建议尽量想齐全想清楚并表达准确。至于如何做到,可以多学习平台上优秀作品的提示词,更多的是多去实践,才能熟能生巧。

第三步:剪辑成片

将每个步骤的配图都生成视频后,就可以作为素材进行拼接,并附上配乐、解说、字幕等内容,最终剪辑成片了。

我在本次的“忒修斯之船”的案例中,由于录制视频时我原本设想的是口头表达,当时还没想到要用“解说漫画”来替代。所以我其实是先录制了口头的解说,再用视频上去匹配的。如果你是把这一步放到最后,那么可以继续利用AI,让它生成对应的解说词(具体如何控制文案长度、风格这里就不展开了),然后自行录制或者使用AI来生成对应的旁白。

如果各位是希望尝试AI生成旁白(事实上如果不是先录制好了我自己的解说,我肯定会尝试用AI来生成),那么我可以推荐另一款产品,由Minimax稀宇科技出品的Hailuo AI的“声音生成”。它最新的Speech 02模型,增加了Voice Design声音设计的能力,可以支持用户选择各类声线、各类语调乃至于通过自然语言描述的音色来生成音频。这对于我们想制作解说漫画视频,可谓是无比适配。

旁白也准备好了,我们就可以将它们拼接在一起。

这里我使用的是产品倒没什么特别,就是“剪映”。

需要补充的一点经验就是,因为生成视频的长度往往是固定的(比如5秒、10秒),而对应的解说旁白则不可能刚好对齐。此时处理就比较简单的,可以音、画两边都尝试变速,在尽可能小影响的范围内对齐即可。

额外的一些总结

我在去年开发自己的AI课程时,针对AI生成图片/生成视频的领域,总结过当时面临的三大挑战:

  1. 肢体的协调性,尤其是生成人物的手指;
  2. 文字的生成,去年时的AI生图还无法处理文字,但这方面随着近半年的快速迭代,已经可以说是基本被解决了;
  3. 角色一致性,也就是生成多张图片时是否能保持其中角色形象的一致性。

而我之所以使用豆包来生成,很重要的一点是它在第3点的角色一致性上有长足的进步。这里再提供我利用豆包生成的另一组图片,让大家可以更好地感受豆包生图的角色一致性。

在这一组名为“AI时代下产品经理的工作变化”为主题的5幕图片中,可以看出,其中的主人公形象是保持一致的。

同样地,细心的朋友或许会发现,我所使用的都是偏向漫画的风格,这当然是经过老考量。如前面所说,AI生图在图像的真实性上仍有不足(也就是说AI生成的图片在真实性上还是比不过摄影作品)。而像漫画这样的风格,画面内容相对简单,也对于画面的真实性没有过高的要求,此时AI就可以很好地胜任,非常适配像解说概念或事件这样的场景。

与此同时,我们也期待迭代进化“一日千里”的AI,能够在多模态领域持续进步。或许在不远的某一天,我们就可以用上更真实、更易用、更强大的多模态AI产品。

作者:产品经理崇生,公众号:崇生的黑板报

本文由作者原创投稿/授权发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!