腾讯AI Lab开源即王炸：GAIA同级最强Agent框架

当AI智能体（Agent）开发的浪潮涌来，很多一线工程师却发现自己站在一个尴尬的十字路口：左边是谷歌、OpenAI等巨头深不可测的“技术黑盒”，右边是看似开放却暗藏“付费墙”的开源社区。大家空有场景和想法，却缺少一把能打开未来的钥匙。而现在，腾讯AI Lab的《Cognitive Kernel-Pro》研究，递上的可能正是这把钥匙。

在GAIA基准测试中，完胜同级开源对手，并且有一套完整的开源免费解决方案，代码、数据、模型全数公布于GitHub。

并且他们现在已有81颗star。https://github.com/Tencent/CognitiveKernel-Pro

问题的根源

当前最顶尖的AI智能体，特别是那些能像人类研究员一样自主上网、处理文档、分析数据的“深度研究智能体”，其背后的技术壁垒非常高。这导致了一个很尴尬的局面：

闭源系统的“铁幕”：像OpenAI、Google等公司推出的智能体，功能强大，但我们无法得知其内部的具体架构和训练细节。这使得我们很难学习和复现它们的能力，更不用说进行二次开发了。

开源方案的“付费墙”：社区里虽然有很多开源的智能体框架，但为了在性能上追赶闭源系统，它们往往需要集成各种第三方付费服务，比如用于网页内容抓取的FireCrawl、用于文档解析的Chunkr等。这对于预算有限的团队或个人开发者来说，无疑是一道难以逾越的“付费墙”。

正是因为看到了这些困境，研究者们才下定决心要打造一个真正开放、普惠的框架，也就是我们今天的主角 Cognitive Kernel-Pro。

Cognitive Kernel-Pro

一套开源、免费的“乐高”式解决方案

您可以把Cognitive Kernel-Pro想象成一套用来搭建“AI大脑”的乐高积木，它最大的特点就是开源和免费。研究者们的目标很明确：让任何一个开发者都能用上最前沿的智能体技术，而不用担心被技术或费用卡脖子。

Cognitive Kernel-Pro的技术路线图，它整合了之前多项研究成果，并在黄色部分标示了本次工作的核心创新点。

它的核心设计非常巧妙，采用了一种分层的模块化架构，就像一个高效的项目团队：

Main-Agent 一位“项目总监”

这个主智能体是整个系统的大脑，负责接收复杂的任务，然后进行精准地拆解，把一个个子任务分配给最合适的“专家”去处理。它不亲自干活，但对每个专家的能力了如指掌。

Sub-Agents 几位“领域专家

这些子智能体是真正干活的。比如：

网页智能体（Web Agent）：它就像一个精通网络冲浪的专家，能使用playwright工具自主打开浏览器、点击链接、填写表单、滚动页面，甚至在需要时截取网页图片，交给多模态模型进行分析。

文件智能体（File Agent）：这位专家则擅长跟各种文档打交道，无论是PDF报告、Excel表格还是图片文件，它都能轻松处理。为了应对大文件，它还会聪明地把文件一页一页地看，而不是一次性加载，非常高效。

整个框架的“沟通语言”是Python代码。这意味着，无论是主智能体下达指令，还是子智能体执行任务，都是通过生成和执行Python代码来完成的。它让我们能用最熟悉的方式去理解、控制和扩展AI的行为。

Cognitive Kernel-Pro的框架概览，左侧展示了智能体的核心工作流，右侧则清晰地描绘了主智能体与子智能体之间的层级结构和各自的功能。

“喂养”AI：高质量数据的独家配方

一个再好的框架，如果没有高质量的“养料”（训练数据）来喂养，也只是个空架子。我觉得，这篇论文在数据构建上的思路，是其最核心的贡献之一，充满了智慧。

反向出题：让AI自己成为“出题官”

研究者们没有采用传统的“找题给AI做”的模式，而是另辟蹊径，让AI自己给自己出题。这个过程被称为“基于智能体探索的数据构建”，具体操作是这样的：

1.反向出题：研究者们修改了主智能体的任务目标，不再是“寻找答案”，而是“创造问题”。智能体会接收到一个宽泛的主题（比如“2000年以来的太空探索进展”），然后自主地去网上搜索、阅读多个相关的网页或文档（比如NASA官网、维基百科）。

2.信息整合：在阅读和探索之后，智能体会把从不同来源找到的信息碎片整合起来，构造出一个新的、必须结合这些信息才能回答的复杂问题。例如，它可能会问：“将NASA在2005年发射的所有火星探测器的总重量，与维基百科上列出的‘好奇号’火星车的重量进行比较，哪个更重？”

3.生成答案与轨迹：在生成问题的同时，智能体也会记录下完整的、能够解决这个问题的行动轨迹和最终答案。

论文中展示了信息聚合的过程，智能体需要通过计算、排序、分析等操作，才能从多个来源的信息中得到最终答案。

基于提示的训练轨迹采样

这种方法生成的数据质量非常高，因为它天然地包含了多步推理、信息整合和跨源验证的需求。除了这种核心方法，他们还用到了一个非常聪明的技巧：

基于提示的训练轨迹采样（Hint-based Sampling）

在让另一个AI去学习解决这些新生成的问题时，研究者发现，如果直接把正确答案的“中间步骤”或“关键信息”作为提示（Hint）悄悄地塞给它，它的学习成功率会大大提高。当然，这些提示就像是给学生的“小抄”，只在“模拟考试”（即数据收集阶段）时使用，在最终的“正式考试”（即模型训练阶段）前，这些提示会被全部拿掉，以确保模型学到的是真正的解题能力，而不是对提示的依赖。

推理时的两大“纠错”法宝

我们都知道，AI模型在实际运行时，尤其是在面对充满不确定性的真实网络环境时，很容易“犯错”或“走神”。为了让智能体表现得更稳定、更可靠，研究者们设计了两套非常实用的优化流程。

第一招：自我反思（Reflection）

这就像是给AI装上了一个“复盘”模块。每当智能体完成一次任务后，它不会立刻提交答案，而是会先启动“反思”程序，从四个维度对自己刚才的表现进行严格的自我审查：

答案非空（Non-Empty）：我给出答案了吗？还是交了白卷？

答案合理（Reasonable）：如果问题是问一个地名，我回答的是不是一个看起来像地名的东西？有没有夹带私货或无关信息？

过程成功（Successful）：在执行任务的过程中，有没有出现打不开文件、访问不了网站之类的低级错误？

来源可靠（Reliable）：我得出结论所依据的信息来源，靠谱吗？逻辑站得住脚吗？

一旦发现任何一项不达标，智能体就会判定这次任务“不合格”，然后自动重试，直到拿出一个自己满意的结果为止。

第二招：集体决策（Voting）

如果说“反思”是“吾日三省吾身”，那么“投票”就是“三个臭皮匠，顶个诸葛亮”。这个机制非常简单粗暴但有效：让智能体把同一个任务，用不同的思路尝试好几次（比如3次）。

完成后，它会把这几次的全部过程和结果摆在一起，然后利用上面提到的“反思”标准作为投票依据，选出那个它认为最完美、最可靠的轨迹作为最终答案。论文里举了一个生动的例子：当被问及某位歌手最早的专辑时，一次尝试可能找到了2000年的专辑，另一次尝试找到了1990年的。通过投票对比，智能体就能轻易判断出1990年的答案更准确。

GAIA基准测试上的硬核对决

理论说得再好，终究要看实际效果。研究者们选择了业界公认的、难度极高的GAIA基une测试来检验Cognitive Kernel-Pro的实力。这个测试集就像是AI智能体的“高考”，全面考察它们在网页浏览、文件处理、多模态理解等多种复杂任务上的综合能力。

强劲的对手们：闭源与开源的同台竞技

为了证明自己的含金量，Cognitive Kernel-Pro不仅要和同级别的开源项目比，还要敢于和那些含着“金钥匙”出生的闭源商业系统叫板。

闭源系统：比如论文中提到的Manus、Deep Research等，这些通常由大公司支持，拥有最顶尖的模型和海量资源，是业界的性能标杆。

开源系统（付费工具加持）：例如OWL和OAgent，它们虽然代码开源，但为了追求高性能，集成了像FireCrawl、Chunkr这类强大的商业工具。

开源系统（免费工具）：这是Cognitive Kernel-Pro所在的赛道，对手包括SmolAgents、WebDancer和WebSailor等。其中，WebDancer和WebSailor是阿里巴巴通义团队的力作，在Web智能体领域有很高的知名度。

令人信服的成绩单：数据不会说谎

实验结果真的挺给力，可以说是在开源免费这条赛道上取得了压倒性的胜利

GAIA基准测试性能对比。左图展示了Cognitive Kernel-Pro在使用免费工具的情况下，与使用付费工具的系统的性能对比；右图则显示了其8B模型相较于其他7B模型的优越性。

与顶尖选手掰手腕：当搭载了强大的Claude-3.7模型后，Cognitive Kernel-Pro在不使用任何付费工具的情况下，其Pass@3（尝试3次内的成功率）达到了惊人的70.91%。这个成绩不仅远超同赛道的Smolagents等对手，甚至可以和那些依赖付费工具的OWL（69.09%）以及顶尖闭源系统Manus（73.3%）掰一掰手腕，含金量十足。

自研模型大放异彩：这才是最关键的。研究者们用自己创造的数据，训练了一个80亿参数的开源模型CK-Pro-8B。在GAIA的纯文本任务子集上，这个“亲儿子”模型的表现全面超过了同为70/80亿参数级别的WebDancer和WebSailor。具体来说，它的Pass@1（一次成功率）高出约2%，而Pass@3则高出超过10%。这有力地证明了，他们提出的这套框架和数据训练方法，是真正有效的，能够赋能社区打造出自己的高性能模型。