基础研究 2天前 107 阅读 0 评论

通义开源DeepResearch模型:让AI真正具备“做研究”的能力!

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

通义实验室推出的一项突破性开源项目:DeepResearch,旨在让AI真正具备“做研究”的能力!

在 Humanity"s Last Exam、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch, WebWalkerQA 以及 FRAMES 等多个 Benchmark 上,相比于基于基础模型的 ReAct Agent 和闭源 Deep Research Agent,其 30B-A3B 轻量级 tongyi DeepResearch,达到了 SOTA 效果。

支持深度研究推理

通义DeepResearch模型支持多种推理形式,包括ReAct模式和迭代式深度研究范式(Iterative Deep-Research Paradigm)。

ReAct模式:模型遵循“思考-行动-观察”循环,通过128K上下文长度处理大量交互轮次,实现可扩展的环境交互。其设计受“The Bitter Lesson”启发,强调可扩展计算的优势。

IterResearch范式:将复杂任务解构为独立“研究回合”。

每回合包括:

重构精简工作区:基于上一回合的报告和工具响应动态重构。

执行“思考-综合-行动”流程:内部草稿分析、提炼关键信息到中央报告、最终决策(工具调用或答案生成)。


结合此范式,团队提出Research-Synthesis框架:并行使用多个IterResearch Agent探索问题,整合报告以提升准确性。

端到端Agentic训练

通义DeepResearch重新定义了Agent模型训练流程,建立新范式:Agentic CPT → Agentic SFT → Agentic RL,形成无缝端到端循环。

强化学习优化:基于GRPO算法定制,采用on-policy训练和token级策略梯度损失。通过留一法降低优势估计方差,并排除负样本(如过长未生成答案的样本)以提升稳定性。训练指标显示奖励持续上升,策略熵维持高水平,表明有效探索。

数据质量至关重要:合成数据(如SailorFog-QA-V2)提供一致性分布,优于人工标注数据(如BrowseComp),显著提升泛化能力。

实际应用

通义DeepResearch已成功落地多个阿里巴巴内部应用,成为“生产力引擎”:

高德地图AI出行Agent:集成专属API(如实时天气、交通监测),在晚高峰等场景提供智能导航方案。

通义法睿法律智能体:在法律领域自动检索法条、案例,并进行深度分析。在“法条引用相关性”和“案例引用相关性”指标上超越OpenAI和Claude,综合表现领先。

通义DeepResearch模型、框架、方案已全面开源,可通过下方链接获取信息。

GitHub:https://tongyi-agent.github.io

Hugging Face:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

#AI开源项目推荐##github##AI技术##ai智能体##阿里开源#

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!