开源项目 1周前 112 阅读 0 评论

Qwen 团队发布了 Qwen3-Coder,一个具有开放工具的大型智能体编码模型

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

Qwen 团队宣布了Qwen3-Coder,这是一个新的智能体编码模型家族,专为长上下文、多步骤编程任务而设计。能力最强大的变体 Qwen3-Coder-480B-A35B-Instruct 是一个专家混合模型,总共有 480 亿个参数,每次前向传递有 35 亿个活跃参数。它原生支持 256K 个 token,并且通过上下文扩展支持最多支持 100 万个 token,旨在处理仓库规模的输入和扩展的工具交互。

 

与静态代码生成模型不同,Qwen3-Coder 强调执行和决策。该模型使用强化学习在广泛的现实世界任务上进行后训练,其中成功取决于生成的代码是否运行并解决问题。该方法被 Qwen 称之为“难求解,易验证”,旨在提高鲁棒性和实用性。

 

此外,该团队扩展了长视距智能体强化学习,训练模型在模拟环境中使用工具并响应多轮反馈。为了支持这一点,Qwen 部署了一个能够在云基础设施上运行 20,000 个并行环境的系统,从而能够在类似实际开发人员活动的工作流上进行规模化的代理训练。

 

为了支持实验,Qwen 发布了Qwen Code,这是一个从 Gemini CLI 分叉出来的开源命令行界面。它具有自定义的提示结构,并增强了对工具使用和函数调用的支持。该工具可以通过 npm 安装,并支持与 OpenAI 兼容的 API。

 

此外,Claude Code 用户可以通过代理或路由器配置选项,通过 DashScope 路由请求。这提供了一个熟悉的编码界面,同时能够在多模型设置中评估 Qwen3-Coder 的输出。

 

CLI 工具与 Cline、Node.js 和 Python 环境兼容,支持完整的环境变量和 API 支持。

 

Qwen3-Coder 目前可以通过 DashScope API 获得。中国大陆以外的开发人员可以使用国际端点,并且提供了快速集成的 Python 代码示例。预计很快会发布额外的模型尺寸,重点是在降低推理成本的同时保持性能。

 

一些 Reddit 用户指出,虽然本地部署是可能的,但高效运行更大的模型显然需要大量的基础设施:

 

除非你有正确的多 GPU 设置,否则 Qwen3-Coder 的本地使用并不会节省成本。当发布较小版本时,运行才可能会降低费用。根据你的工作负载需求,平衡 GPU 成本与云或托管解决方案可能提供更好的方法。动力和维护也是关键因素。

 

未来的工作包括扩展 Qwen 编码智能体的能力,并探索自我完善的机制,其中智能体可以在最少的人类监督下,跨任务迭代提高性能。

 

原文链接:

https://www.infoq.com/news/2025/07/qwen3-coder/

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!