通义DeepResearch是什么
通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程涵盖智能体持续预训练(Agentic CPT)、监督微调(SFT)和强化学习(RL),形成完整的端到端训练链路。通义 DeepResearch 已赋能阿里巴巴内部多个应用,如高德地图的 AI 原生出行 Agent 和法律领域的“通义法睿”。

通义DeepResearch的主要功能
-
长周期深度信息检索:专为复杂、长周期的信息检索任务设计,能处理多步骤的推理和规划,适用于学术研究、市场分析、政策制定等场景。
-
多模式推理支持:支持 ReAct 模式和深度模式(Heavy Mode)。ReAct 模式严格遵循“思考-行动-观察”循环,适合评估模型的核心能力;深度模式通过迭代研究范式(IterResearch)提升复杂推理能力。
-
全流程合成数据生成:采用自研的全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限,支持从预训练到微调再到强化学习的完整训练链路。
-
端到端强化学习:通过定制化的强化学习算法(如 Group Relative Policy Optimization, GRPO),确保智能体的行为与高阶目标保持一致,提升模型在动态环境中的适应性和稳定性。
-
实际应用赋能:已成功应用于阿里巴巴内部多个场景,如高德地图的 AI 原生出行 Agent 和法律领域的“通义法睿”,展现出强大的实用性和价值。
-
开源共建:项目完全开源,提供完整的代码、模型和数据,鼓励开发者参与共建,推动深度研究智能体的发展和创新。
通义DeepResearch的技术原理
-
全流程合成数据方案:无需人工干预,自动生成高质量数据集,支持从预训练到微调再到强化学习的完整训练链路,突破智能体能力上限。
-
迭代研究范式(IterResearch):将复杂任务分解为多个研究回合,每个回合动态重构精简工作区,通过“思考-综合-行动”流程,提升复杂推理能力和决策质量。
-
端到端强化学习:采用定制化的强化学习算法,如 Group Relative Policy Optimization (GRPO),确保学习信号与模型当前能力精准匹配,提升模型在动态环境中的适应性和稳定性。
-
大规模持续预训练:利用持续更新的知识文档、爬虫数据、知识图谱等构建开放世界知识记忆,生成多风格的(问题,答案)对,持续扩展模型能力。
-
自动化数据管理:在训练动态的指导下实时优化数据,通过全自动数据合成和数据漏斗动态调整训练集,确保训练的稳定性和性能提升。
-
稳定高效的工具沙盒:开发统一的沙盒环境,处理并发和故障,确保工具调用的稳定性和可靠性,为智能体提供快速且鲁棒的交互环境。
通义DeepResearch的项目地址
- 项目官网:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
- Github仓库:https://github.com/Alibaba-NLP/DeepResearch
- HuggingFace模型库:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
通义DeepResearch的应用场景
-
学术研究:能快速整理文献综述,帮助学者们高效完成复杂的学术研究任务,提升研究效率。
-
市场分析:为企业提供竞争对手分析、行业趋势报告等,助力企业制定精准的市场策略。
-
法律研究:在法律领域,如“通义法睿”应用,自动检索法条、类案和裁判文书,进行深度归纳分析,为法律从业者提供强大的生产力工具。
-
出行规划:与高德地图合作,推出 AI 原生出行 Agent,结合实时数据为用户提供精准的出行建议和规划。
-
复杂信息检索:适用于需要多步骤推理和规划的复杂信息检索任务,如跨领域研究、政策制定等,帮助用户快速获取和整合信息。