产品评测 8小时前 95 阅读 0 评论

实测首款Agent蜂群,人人都可以造自己的视频版manus了

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

上上周我们一起测试了六款视频Agent,


Agent们手里有一堆音频、视频、剪辑、生图等工具,由他们决定调用顺序成片



上周我们又一起测试了Manus的Wide Research,


听起来像是套娃,Agent for Agents,作为主Agent的Manus可以并行启动100个子Agent,它们同时完成搜索、总结、数据生成等任务。


那如果把这两个概念结合起来,AI视频制作的 Agent for Agents 能一次性出多长的视频呢?


以下视频来源于


360公司



9分34秒 = 574秒 = 115个视频片段 = 29,996,401个Tokens


所以接下来内容我会手把手教你搭建这套智能体,它的名字是「多智能体蜂群」(🔗 sea.n.cn),以及这个新的Agent流做出来的视频能满足哪7大使用场景。


Here we go!


先上结论,


跟隔壁的Dify相比,多智能体蜂群把迭代(while)条件分支(if)节点封装成了新的智能体,然后其他节点统统用智能体代替。


Dify界面:



多智能体蜂群界面:



我琢磨了五六七下,决定还是直接从一个完整的智能体入手会更易懂。



拿放大镜靠近看看,


条件智能体:主要是用来判断不同的情况,比方我有时候想直接生成视频片段,有时候想让Agent先生成脚本、分镜、再到视频片段。提示语主体我都是直接AI优化生成的,输入“/”的话还可以引用所有上游节点的输出。



专家智能体:主要用来完成某件事,比方可以搭配视频类MCP完成视频生成、音频生成和视频剪辑。目前有63个大模型和44个MCP Servers可以选择。



但每次生成10s,1分钟的视频需要运行6次,等待时间很长,


迭代智能体就是为了解决这种情况的,


从设计上看,迭代智能体会将上一步输入转换成二维数组。用人话说就是将大段的长文本切割加工成多组提示语,这些提示语会同时生成,减少等待运行的时间。



Agent for Agents 并不意味着控制度会降低,


在构建的过程,流程节点多了之后我就想在中间能实时观测模型的输出,或者给模型输入场外信息,形式可以是单选多选,或者图文文件等等,

反正不写超长提示语就行。


多智能体蜂群里就内置了18个UI模版和组件,我完全可以看到中间的脚本输出后主动选择是否重新生成。



OK啊,现在我们都有一个自己从零搭建出来的多Agent蜂群了。


热知识,构建好的多Agent在对话过程中如果生成失败是会退回所有积分的,豪到没边了。。。


冷知识,Agent也是有等级划分的,


L1就是光聊天不干活、L2就是单工作流智能体,流程相对固定;


L3级就是Manus们,推理模型+工具 = 模型在各种任务上自由组合能力完成目标;L4的话就是今天我们一起做的多智能体蜂群把不同类型的L3智能体组合起来完成复杂任务。



坦白说目前多智能体蜂群做出来的视频在分镜设计、剪辑节奏上还比不上我们使用传统工作流和AI结合的做出来的效果,


但是故事完整度、画风一致性、以及在AI视频领域里的超长时长,也让它在现阶段就能独立完成一些视频制作任务,而且重要的是它速度快,并且朝着又快又好的方向在走。所以这次,我总结出了7个使用场景:


一、知识科普


先从简单的开始,用常见的提示语让蜂群自己脑补:


帮我生成一个科普类型的动画,要求用简笔画的漫画风格形式讲解中国古人眼里的各种山的形式,其中包括有”峰“”峦“”岳“”嶂“”丘“”岭“,比例是16:9,要求风格一致,



二、第一人称


也可以直接丢完整的故事,不需要指定画风啥的。


一个写实的小橘猫的冒险故事。用橘猫的第一人称自述的形式来作为故事大纲,故事总是充满自拍,用小猫的自拍镜头来表达画面,故事如下:


“好的,这是一个以那只猫咪为主角,带有原文语气的纯文字故事,结尾充满自由:


朋友,当你看到这里的时候,我已经变成加勒比海上的一名海盗了。这里没有勾心斗角,海盗也没有理想,因为海盗的一生是放荡不羁爱自由的。


那天,我正蹲在码头的木桩上晒太阳,爪子时不时拨弄一下水面上的倒影。一艘老旧却威风凛凛的木船停靠在不远处,船帆破旧却迎风招展,旗帜上画着一只带着眼罩的猫头。我的胡须动了动,心里有个小小的声音在说:“嘿,这不就是我一直想去的地方吗?”(太长了我放四分之一)



三、非遗故事


结构化类型的提示语也能起作用,可以通过分段的形式指定整个视频的走向。


片名:《一尺方寸,两代春秋》 (A Foot of Space, Two Generations of Time)


主题: 在光与影之间,操纵的是皮偶,讲述的是人心,传承的是不灭的星火。


形式: 采用双线叙事的温情纪录片,一条线是幕后的制作与传承,另一条线是幕前的光影传奇。


故事梗概:


主角是一位年迈的皮影戏班主,和他十几岁的孙女。

幕后·雕刻 (造物): 阳光透过窗棂,照在老师傅布满皱纹的手上。他正在一块驴皮上雕刻新的皮影人物——孙悟空。刀尖游走,线条流畅。他一边刻,一边给旁边的孙女讲述这个人物的故事。孙女用手机记录下这一切。旁白(孙女稚嫩的声音):“爷爷说,每一刀下去,都要想着他将来要怎么打,怎么笑。这不叫刻皮子,叫给他注入魂儿。”

幕前·排演 (入戏): 晚上,爷孙俩在后台的白幕后排练。爷爷操纵着孙悟空,孙女操纵着白骨精。光影下,两个皮偶打得难分难解。镜头在幕前(观众视角,看到的是完整的神话故事)和幕后(爷孙俩默契的配合和投入的表情)之间切换。


现实·困境 (黄昏): 一场正式的乡村演出。台下观众寥寥无几,多是老人。年轻人们低头玩着手机,手机屏幕的光与幕布上的光形成讽刺的对比。演出结束,掌声稀稀拉拉。后台,爷爷默默地收拾着皮影箱,眼神落寞。孙女看着他,心里不是滋味。

传承·新光 (破晓): 孙女把自己用手机拍的爷爷雕刻、表演的视频,配上节奏感强的现代音乐,剪辑成了一个酷炫的短视频发布到网上。视频意外地火了,很多人留言说“太酷了”、“原来皮影可以这么帅”。



四、音乐MV


做音乐MV的技巧就是通过画面和视频分开描述,完成单个镜头的描述。这样就可以把歌词跟画面一一对应上


《夏天的风》文艺MV分镜脚本(详细描述)


a.晨曦初照,窗外微风


画面描述:清晨的第一缕阳光透过窗帘缝隙洒进房间,阳光柔和、温暖。窗外,翠绿的树叶在微风中轻轻摇摆,空气中弥漫着早晨的清新气息。镜头慢慢推进,焦点对准女孩的脸庞,她在睡梦中微微皱眉,似乎有些不舍离开梦境。随着她的眼睛缓缓睁开,阳光恰好照亮了她的眼眸。她轻轻地伸了个懒腰,嘴角泛起一丝微笑。她的目光穿过窗外的景色,心中浮现出某种温柔的回忆。房间里安静,时间仿佛在这一刻静止。


视频描述:镜头从房间的一角开始,慢慢拉近女孩的床铺,阳光从窗户射入,柔和的光线打在女孩的脸上。随着镜头的推进,女孩从睡梦中醒来,动作流畅自然,缓慢的节奏给人一种温暖的感觉。光与影的交织营造出清晨的宁静氛围,女孩的眼神从迷离到清醒,带着一丝微笑,展现出她内心的平和与安宁。



五、IP广告


为蜜雪冰城做一条青提系列的原创创意有趣广告视频,以蜜雪冰城的雪王ip为主,贯穿主线,表达夏日缤纷与青提、凉爽。



六、图一乐类


放这个case完全是因为还可以做出直播间的感觉。。。


这是一个第一人称vlog视角的视频,主角是秦始皇嬴政穿越到现代城市上海,骑着北极熊在东方明珠塔下直播,它一边直播一边喝着蜜雪冰城的奶茶,突然上海的东方明珠塔尖射出一道毁灭般的激光,吓得秦始皇骑着北极熊四处逃窜,就在危机时刻,秦始皇骑着北极熊掏出安卓牌子的智能手机在东方明珠塔下自拍,快门按下的刹那,东方明珠塔突然坍塌化作一片废墟,结尾是秦始皇戴着安全帽穿着皇帝的衣服在废墟中重新修建东方明珠塔,北极熊也戴着安全帽在工地运送砖块钢筋等建筑材料,整个画面是第一人称vlog的视角



写在最后


AI视频,


尤其是最近这两个月,


从模型到 Agent,一波接一波地更。


生成体验更舒适了、成片更快了、玩法也更多了。


虽然它还远没到“完美”的程度。


哪算是现在我最喜欢的几个模型,也有镜头不顺、节奏感偏弱、配音发涩的问题。


我心里清楚他们还会变强,还会越来越强。


所以我根本没时间纠结瑕疵,


因为版本们就在一天一个样地更新,


剪辑、旁白、情绪、构图、动态生成,这些都在不断改进。


相比哪里不好,我更关心可以做出什么。


距离做到完美的那一天没那么快。


但我也知道,


它真的在靠近了。


文章来自于微信公众号“卡尔的AI沃茨”,作者是“AI沃茨”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!