AI热点 2小时前 110 阅读 0 评论

Agent的割裂时代,呼唤“统一大脑”

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

AI Agent正陷入一个矛盾的处境:技术突飞猛进,应用却支离破碎。


市面上的主流Agent大多是单点突破的“专家型”产品——有的擅长文案写作,有的专攻图像生成,有的聚焦客户服务,但彼此孤立,用户需要手动串联各个环节。更为关键的是,这些Agent往往存在严重的“端侧割裂”:Web端体验无法延续到移动端,PC客户端的任务进度无法在手机上查看,每一次交互都像“重新开始”, 同一个问题哪怕是中断后想再追问,都需要用户反复解释需求。


更深层的问题在于,当前Agent缺乏统一的认知和记忆中枢。它们往往是“黑箱”式运作,过程不可控,结果质量不稳定,用户既无法干预过程,也难以建立持续的交互记忆。这种现状让人不禁思考:AI Agent的终极形态,难道就是让用户管理一堆零散的“工具人”?真正的智能助手,能否像人脑一样实现统一指挥、无缝适应不同场景和终端?


8月18日,百度文库联合百度网盘发布GenFlow 2.0,这是全球首个“全端通用”Agent,正试图破解这一困局。它预备了100+专家团并行工作、跨端一致体验,同时过程可干预、记忆可追溯。GenFlow2.0指向了一种全新的技术范式,类似于具身智能领域一脑多形的概念,即一个统一的智能中枢控制不同的表现形态。正如具身智能的最终构想:同一个大脑驱动四足、双足或人形等不同构型,GenFlow 2.0试图用统一的Agent中枢,在不同设备、不同场景下提供无缝的智能服务体验。



这种范式转变,或许正在重新定义下一代AI Agent的标准。


实测文库GenFlow 2.0,什么是Agent的“一脑多形”?


GenFlow 2.0的核心创新在于构建了类似于“一脑多形”架构。这不是简单的多模型堆砌,而是通过统一智能中枢实现多端自适应的系统性突破。


GenFlow 2.0的“脑”是一个复杂的调度与认知中枢系统,其核心是自研Multi-Agent基础架构。GenFlow2.0本身是个多轮对话的框架,要想对用户意图做精准理解,那就不仅仅是了解当前一个问题的意图,需要结合用户个人画像,及其过去一段时间,一个时间窗里的多轮交互的背景信息,去判断他的一些个人倾向。


系统采用动态混合推理(MoE)架构,能够基于不同任务、步骤来调用不同模型,在成本、性能和效率上实现最优平衡。与传统“大而全”模型不同,GenFlow 2.0维护着100+个专业化Agent池,每个Agent都在特定领域经过深度优化。


更关键的是,系统构建了完整的“临短长记忆中枢”。 GenFlow 2.0打造了独创的“记忆库”,可以记住并运用用户在文库网盘沟通的历史记录、上传下载文件,可完整交付更懂用户的个性化内容。这个记忆系统整合了用户行为记忆、对话记忆、个性化偏好记忆等多源数据融合,形成持续积累的认知基础。


在“形”的层面,文库GenFlow 2.0实现了真正的全端通用体验。用户可以在百度文库Web端、App端等多个终端无缝切换,任务进度、交互记忆、文件关联都保持完全一致。这种一致性不仅体现在功能层面,更体现在交互逻辑的统一:用户在任意端点发起的任务,都可以在其他端点查看进度、进行干预、获取结果。


移动端体验的优化尤其值得关注。GenFlow 2.0在手机上提供了直观的并行任务视图,用户可以通过并列式进度条实时看到多个Agent的工作状态,支持随时暂停特定任务、补充新需求、调用云端文件。这种设计充分考虑了移动场景下的碎片化使用特点,让用户能够有效利用通勤、等待等零散时间推进复杂任务。



系统的智能模式切换功能进一步提升了使用体验。GenFlow 2.0能够自动识别用户需求的复杂程度,在简单问答与复杂多任务并行模式间无缝切换,无需用户手动指定。当检测到单一问题时,系统会快速给出直接回答;当识别到复合需求时,会自动启动多Agent协作模式,用户完全感知不到模式切换的存在。


我们测试了Genflow2.0的并行任务能力和全端配合能力。第一个任务,我们让它设计5个类似labubu的盲盒ip,画出原型图,并要求:有可能会火。



在进行了大量的市场分析和调研之后,大概在3分钟左右,Genflow2.0同时生成了5种不同风格盲盒ip,包括结合了传统文化的山海经异兽、像素风手办等等。



(大家也可以投出自己喜欢的形象)


在下班回家的路上,我想更多了解一些Labubu设计背后的设计理念,于是在移动端让Genflow2.0根据我们之前的讨论,生成了一份《原创盲盒IP概念设计方案》。可见,Genflow2.0在手机端也可以一键将报告生成ppt,并根据报告对上述生成内容进行二次修改,随时随地完善任务。



我们发现在输出能力上,GenFlow 2.0依托已经过市场验证的专业Agent,能够并行生成PPT、分析报告、配图、数据图表,甚至交互式H5页面等多种形态的内容。这种多模态一站式输出能力切实好用,让用户从复杂的工具链中解脱出来,通过单一入口就能获得完整的解决方案。


为什么“全端通用”定义了下一代Agent标准?


从当前市场碎片化的单点工具到统一的智能中枢,这种范式转变,正在为Agent打开一种新的可能。


传统Agent产品采用串行处理模式,用户往往需要等待数十分钟甚至数小时,才能获得完整结果。文库GenFlow 2.0的“百个AI Agent专家团并行”模式彻底改变了这一现状。当用户提出复杂需求时,系统能够同时调动PPT专家、研报专家、绘图专家等多个Agent并行工作,将原本需要数小时的工作压缩到3分钟内完成,实现了生产力的质的飞跃。


此次AIDAY上,百度方面还详细解释了并行调度的技术难点。总结来说,一个最大的点就是状态的管理。因为最开始对意图做拆解以后,会呈一个子任务序列,所谓的动态任务编排,每个任务调度具体的底层Agent不一样,任务本身内部的环节节点也有所差异,所以,文库GenFlow2.0会有一个消息通讯总控,会同步协调它整个的进度。


这种并行模式带来了显著的性能提升。GenFlow 2.0平均3分钟生成,比主流Agent快5-10倍,而且一个480p生成1分钟的视频,是行业水平整个成本的十分之一。



“全端可用”特别是移动端的深度整合,让Agent的能力范围大大提高。传统Agent产品往往局限于PC端或Web端,移动端体验严重缺失。GenFlow 2.0在手机上提供了直观的并行任务视图,用户可以通过并列式进度条实时查看多个Agent的工作状态,支持随时暂停、补充需求、调用文件。


同时,“过程可干预、记忆可追溯”将传统AI的黑箱运作模式转变为透明的白箱体验,这是建立人机协作信任的关键。用户不再被动接受AI的输出结果,而可以全程参与、实时调整、深度干预。系统支持在任何环节暂停任务、追问细节、补充要求,甚至修改思考内容。


这种深度的人机协作模式,极大提升了AI的可用性和用户的信任度。当用户拥有控制权和知情权时,他们更愿意将重要任务交给AI处理,从而释放出更多的创造性时间。


在Agent的扩展边界上,GenFlow 2.0兼容MCP协议,意味着其“中枢大脑”可以灵活接入更多第三方服务、工具,甚至硬件设备。这种开放架构避免了对单一技术路线的依赖,为未来的功能扩展和生态合作奠定了基础。


荣耀作为全球首批接入MCP生态的硬件厂商,已经将GenFlow 2.0原生接入荣耀智能助理YOYO,实现了AI Agent与硬件厂商的系统级原生调度。这种合作模式预示着AI Agent正在从软件应用向操作系统级服务演进。


对于用户而言,百度文库的公域知识库与用户授权后的百度网盘私域数据解决了Agent记忆的关键问题,为Agent提供了强大的个性化认知基座。系统可以同时调用超14亿专业内容资源、6.8亿篇学术文献,以及用户个人的文件、历史记录、偏好设定,实现真正的个性化智能服务。


对比当前主流的单点工具型Agent和Copilot类助手,GenFlow 2.0在统一调度、多端适应、生态开放等方面展现出的组合优势,正在定义一个更接近下一代AI Agent标准。


回归本质:“好用”才是终极奥义


GenFlow 2.0的问世,根植于百度文库(AI MAU 9700万)和百度网盘(10亿+用户)两大国民级应用的深厚积累。海量用户在跨端、多任务、个性化场景中的真实需求,直接推动了"统一调度中枢"和"全端自适应"架构的诞生,这是百度“让AI真正有用”的另一种体现。


可以说,GenFlow 2.0的突破性表现,很大程度上得益于百度独特的AI全栈布局优势。



这种"芯片-框架-模型-应用"的垂直整合体系,为复杂Agent系统提供了端到端的深度优化能力。昆仑芯在芯片层提供的强大算力支撑,确保了上百个Agent并行调度的实时响应;飞桨框架层的动态图与分布式训练能力,成为实现复杂Multi-Agent动态调度的技术中轴;文心大模型层通过MoE架构的灵活集成,构建起专业Agent的智能内核;而文库网盘应用层既是需求源头,也是能力沉淀与数据融合的载体。


相比依赖第三方API或模型的竞品,百度能够在算力调度、模型推理、数据流转等关键环节进行系统级优化,从而实现更低的延迟、更高的稳定性和更精准的个性化体验。这也是百度区别于纯模型厂商或纯应用厂商的核心差异化优势。


从概念验证走向实用工具,从单点应用走向系统能力。当Agent系统变得日益复杂,涉及多模态处理、实时协同、跨端同步等高难度技术挑战时,考验的,正是厂商技术积累的厚度与广度。


而百度凭借十余年AI全栈布局与亿级用户场景沉淀,正在这场长跑中,展现出独特的竞争优势。


文章来自于微信公众号“硅星人Pro”,作者是“Yoky”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!