AI热点 3小时前 64 阅读 0 评论

腾讯AI Lab开源即王炸:GAIA同级最强Agent框架

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

当AI智能体(Agent)开发的浪潮涌来,很多一线工程师却发现自己站在一个尴尬的十字路口:左边是谷歌、OpenAI等巨头深不可测的“技术黑盒”,右边是看似开放却暗藏“付费墙”的开源社区。大家空有场景和想法,却缺少一把能打开未来的钥匙。而现在,腾讯AI Lab的《Cognitive Kernel-Pro》研究,递上的可能正是这把钥匙。



在GAIA基准测试中,完胜同级开源对手,并且有一套完整的开源免费解决方案,代码、数据、模型全数公布于GitHub。



并且他们现在已有81颗starhttps://github.com/Tencent/CognitiveKernel-Pro


问题的根源


当前最顶尖的AI智能体,特别是那些能像人类研究员一样自主上网、处理文档、分析数据的“深度研究智能体”,其背后的技术壁垒非常高。这导致了一个很尴尬的局面:


  • 闭源系统的“铁幕”:像OpenAI、Google等公司推出的智能体,功能强大,但我们无法得知其内部的具体架构和训练细节。这使得我们很难学习和复现它们的能力,更不用说进行二次开发了。


  • 开源方案的“付费墙”:社区里虽然有很多开源的智能体框架,但为了在性能上追赶闭源系统,它们往往需要集成各种第三方付费服务,比如用于网页内容抓取的FireCrawl、用于文档解析的Chunkr等。这对于预算有限的团队或个人开发者来说,无疑是一道难以逾越的“付费墙”。


正是因为看到了这些困境,研究者们才下定决心要打造一个真正开放、普惠的框架,也就是我们今天的主角 Cognitive Kernel-Pro。


Cognitive Kernel-Pro


一套开源、免费的“乐高”式解决方案


您可以把Cognitive Kernel-Pro想象成一套用来搭建“AI大脑”的乐高积木,它最大的特点就是开源免费。研究者们的目标很明确:让任何一个开发者都能用上最前沿的智能体技术,而不用担心被技术或费用卡脖子。



Cognitive Kernel-Pro的技术路线图,它整合了之前多项研究成果,并在黄色部分标示了本次工作的核心创新点。


它的核心设计非常巧妙,采用了一种分层的模块化架构,就像一个高效的项目团队:


Main-Agent 一位“项目总监”


这个主智能体是整个系统的大脑,负责接收复杂的任务,然后进行精准地拆解,把一个个子任务分配给最合适的“专家”去处理。它不亲自干活,但对每个专家的能力了如指掌。


Sub-Agents 几位“领域专家


这些子智能体是真正干活的。比如:


  • 网页智能体(Web Agent):它就像一个精通网络冲浪的专家,能使用playwright工具自主打开浏览器、点击链接、填写表单、滚动页面,甚至在需要时截取网页图片,交给多模态模型进行分析。


  • 文件智能体(File Agent):这位专家则擅长跟各种文档打交道,无论是PDF报告、Excel表格还是图片文件,它都能轻松处理。为了应对大文件,它还会聪明地把文件一页一页地看,而不是一次性加载,非常高效。


整个框架的“沟通语言”是Python代码。这意味着,无论是主智能体下达指令,还是子智能体执行任务,都是通过生成和执行Python代码来完成的。它让我们能用最熟悉的方式去理解、控制和扩展AI的行为。



Cognitive Kernel-Pro的框架概览,左侧展示了智能体的核心工作流,右侧则清晰地描绘了主智能体与子智能体之间的层级结构和各自的功能。


“喂养”AI:高质量数据的独家配方


一个再好的框架,如果没有高质量的“养料”(训练数据)来喂养,也只是个空架子。我觉得,这篇论文在数据构建上的思路,是其最核心的贡献之一,充满了智慧。


反向出题:让AI自己成为“出题官”


研究者们没有采用传统的“找题给AI做”的模式,而是另辟蹊径,让AI自己给自己出题。这个过程被称为“基于智能体探索的数据构建”,具体操作是这样的:


  • 1.反向出题:研究者们修改了主智能体的任务目标,不再是“寻找答案”,而是“创造问题”。智能体会接收到一个宽泛的主题(比如“2000年以来的太空探索进展”),然后自主地去网上搜索、阅读多个相关的网页或文档(比如NASA官网、维基百科)。


  • 2.信息整合:在阅读和探索之后,智能体会把从不同来源找到的信息碎片整合起来,构造出一个新的、必须结合这些信息才能回答的复杂问题。例如,它可能会问:“将NASA在2005年发射的所有火星探测器的总重量,与维基百科上列出的‘好奇号’火星车的重量进行比较,哪个更重?”


  • 3.生成答案与轨迹:在生成问题的同时,智能体也会记录下完整的、能够解决这个问题的行动轨迹和最终答案。



论文中展示了信息聚合的过程,智能体需要通过计算、排序、分析等操作,才能从多个来源的信息中得到最终答案。


基于提示的训练轨迹采样


这种方法生成的数据质量非常高,因为它天然地包含了多步推理、信息整合和跨源验证的需求。除了这种核心方法,他们还用到了一个非常聪明的技巧:


基于提示的训练轨迹采样(Hint-based Sampling)


在让另一个AI去学习解决这些新生成的问题时,研究者发现,如果直接把正确答案的“中间步骤”或“关键信息”作为提示(Hint)悄悄地塞给它,它的学习成功率会大大提高。当然,这些提示就像是给学生的“小抄”,只在“模拟考试”(即数据收集阶段)时使用,在最终的“正式考试”(即模型训练阶段)前,这些提示会被全部拿掉,以确保模型学到的是真正的解题能力,而不是对提示的依赖。


推理时的两大“纠错”法宝


我们都知道,AI模型在实际运行时,尤其是在面对充满不确定性的真实网络环境时,很容易“犯错”或“走神”。为了让智能体表现得更稳定、更可靠,研究者们设计了两套非常实用的优化流程。


第一招:自我反思(Reflection)


这就像是给AI装上了一个“复盘”模块。每当智能体完成一次任务后,它不会立刻提交答案,而是会先启动“反思”程序,从四个维度对自己刚才的表现进行严格的自我审查:


  • 答案非空(Non-Empty):我给出答案了吗?还是交了白卷?


  • 答案合理(Reasonable):如果问题是问一个地名,我回答的是不是一个看起来像地名的东西?有没有夹带私货或无关信息?


  • 过程成功(Successful):在执行任务的过程中,有没有出现打不开文件、访问不了网站之类的低级错误?


  • 来源可靠(Reliable):我得出结论所依据的信息来源,靠谱吗?逻辑站得住脚吗?


一旦发现任何一项不达标,智能体就会判定这次任务“不合格”,然后自动重试,直到拿出一个自己满意的结果为止。


第二招:集体决策(Voting)


如果说“反思”是“吾日三省吾身”,那么“投票”就是“三个臭皮匠,顶个诸葛亮”。这个机制非常简单粗暴但有效:让智能体把同一个任务,用不同的思路尝试好几次(比如3次)。


完成后,它会把这几次的全部过程和结果摆在一起,然后利用上面提到的“反思”标准作为投票依据,选出那个它认为最完美、最可靠的轨迹作为最终答案。论文里举了一个生动的例子:当被问及某位歌手最早的专辑时,一次尝试可能找到了2000年的专辑,另一次尝试找到了1990年的。通过投票对比,智能体就能轻易判断出1990年的答案更准确。


GAIA基准测试上的硬核对决


理论说得再好,终究要看实际效果。研究者们选择了业界公认的、难度极高的GAIA基une测试来检验Cognitive Kernel-Pro的实力。这个测试集就像是AI智能体的“高考”,全面考察它们在网页浏览、文件处理、多模态理解等多种复杂任务上的综合能力。


强劲的对手们:闭源与开源的同台竞技


为了证明自己的含金量,Cognitive Kernel-Pro不仅要和同级别的开源项目比,还要敢于和那些含着“金钥匙”出生的闭源商业系统叫板。



  • 闭源系统:比如论文中提到的ManusDeep Research等,这些通常由大公司支持,拥有最顶尖的模型和海量资源,是业界的性能标杆。


  • 开源系统(付费工具加持):例如OWLOAgent,它们虽然代码开源,但为了追求高性能,集成了像FireCrawl、Chunkr这类强大的商业工具。


  • 开源系统(免费工具):这是Cognitive Kernel-Pro所在的赛道,对手包括SmolAgentsWebDancerWebSailor等。其中,WebDancer和WebSailor是阿里巴巴通义团队的力作,在Web智能体领域有很高的知名度。


令人信服的成绩单:数据不会说谎


实验结果真的挺给力,可以说是在开源免费这条赛道上取得了压倒性的胜利



GAIA基准测试性能对比。左图展示了Cognitive Kernel-Pro在使用免费工具的情况下,与使用付费工具的系统的性能对比;右图则显示了其8B模型相较于其他7B模型的优越性。


  • 与顶尖选手掰手腕:当搭载了强大的Claude-3.7模型后,Cognitive Kernel-Pro在不使用任何付费工具的情况下,其Pass@3(尝试3次内的成功率)达到了惊人的70.91%。这个成绩不仅远超同赛道的Smolagents等对手,甚至可以和那些依赖付费工具的OWL(69.09%)以及顶尖闭源系统Manus(73.3%)掰一掰手腕,含金量十足。


  • 自研模型大放异彩:这才是最关键的。研究者们用自己创造的数据,训练了一个80亿参数的开源模型CK-Pro-8B。在GAIA的纯文本任务子集上,这个“亲儿子”模型的表现全面超过了同为70/80亿参数级别的WebDancer和WebSailor。具体来说,它的Pass@1(一次成功率)高出约2%,而Pass@3则高出超过10%。这有力地证明了,他们提出的这套框架和数据训练方法,是真正有效的,能够赋能社区打造出自己的高性能模型。


我们能从中获得什么?


说了这么多,这项研究对我们的实际工作到底有什么帮助或启发呢?


  • 构建AI智能体有了新范本:Cognitive Kernel-Pro为我们提供了一个清晰、可行的蓝图。它的模块化设计、以代码为中心的行动模式,以及主智能体-子智能体的协作方式,都非常值得我们在设计自己的AI应用时借鉴。


  • 数据构建有了新思路:如果您也在为如何获取高质量的指令微调数据而烦恼,不妨试试论文中“让AI自己出题”的思路。这种方法不仅能生成更复杂的任务,还能自动打包好解决方案,极大地提高了数据生产的效率和质量。


  • 提升AI可靠性有了新工具:“反思”和“投票”这两个机制,原理虽简单,但却非常实用。您可以很轻松地将类似的思想集成到自己的产品中,通过增加自检和多重验证环节,显著提升AI服务在真实、复杂场景下的稳定性和准确性。


Cognitive Kernel-Pro不仅仅是一个开源项目,它更像是一本详尽的、开源的“AI智能体开发指南”,它告诉我们,即使不依赖昂贵的闭源API和付费工具,我们同样有机会打造出第一梯队的AI智能体。


文章来自于微信公众号“AI修猫Prompt”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!