昨晚OpenAI官方放了个大招,发布了gpt-oss-120b和gpt-oss-20b两款开源模型,这是一个专为Agent而生的模型,而且开源了。这背后其实藏着OpenAI对未来AI应用形态,特别是Agentic工作流的深刻思考。这篇文章,咱们就一起扒一扒这俩模型到底牛在哪,以及它会怎么影响我们未来的产品开发。
性能与性价比的“王炸”组合
OpenAI官方给出的数据显示,大杯的gpt-oss-120b在核心推理能力上,基本能和他们自家的o4-mini打个平手,这可不是闹着玩的。它在一张80GB的消费级GPU上就能跑起来,而小杯的gpt-oss-20b更是只需要16GB内存,这意味着您甚至可以在边缘设备上做本地推理,这性价比直接拉满了。
为“AI代理”(Agentic)而生
为什么说这模型是为Agentic工作流设计的?OpenAI官方反复强调了它的工具使用能力、指令遵循和推理能力,这正是构建一个合格AI代理(Agent)的三大支柱。它不像传统聊天模型那样只会对话,而是被训练得能够熟练调用外部工具,比如执行Python代码或者进行网络搜索,来完成一个复杂任务,这是开发智能应用时真正需要的能力。
MoE架构与128k上下文
这俩模型能这么高效,核心在于它们采用了混合专家(MoE)架构,虽然总参数量巨大,但每次推理只激活一小部分,大大降低了计算成本。再加上它们都支持高达128k的超长上下文窗口,这意味着模型能处理和记忆的信息量非常可观,对于需要理解复杂文档或长对话的应用场景来说,这简直是福音。
- gpt-oss-120b: 117B总参数,5.1B活动参数,36层,每层128个专家(激活4个)。
- gpt-oss-20b: 21B总参数,3.6B活动参数,24层,每层32个专家(激活4个)。
用数据说话:硬核性能全方位解读
官方这次给出的评测非常全面,覆盖了从编程、数学到专业知识和工具使用的方方面面,咱们一起来详细看看这些数据到底说明了什么。
1. 编程能力 (Codeforces Elo Rating)
这是一个衡量模型在编程竞赛中表现的指标,分数越高代表实力越强。
- 结果:gpt-oss-120b(带工具)的Elo评分达到了2622分,这是一个非常高的水平,与OpenAI自家的顶级模型o3(2706分)和o4-mini(2719分)处于同一梯队。更值得注意的是,小尺寸的gpt-oss-20b(带工具)评分为2516分,大幅领先于o3-mini(2073分)。
这说明gpt-oss系列在代码生成和理解方面非常强大,对于我们工程师来说,这意味着它在辅助编程、代码调试等场景下会是个得力助手。
2. 健康领域对话能力 (HealthBench & HealthBench Hard)
这个基准测试模拟了真实的健康咨询对话场景。
- 结果:在常规的HealthBench上,gpt-oss系列可以说是“乱杀”。gpt-oss-20b得分59.8%,gpt-oss-120b得分57.6%,双双超过了o4-mini(50.1%)和o3(42.5%)。在更具挑战性的HealthBench Hard上,gpt-oss-120b(30%)也仅仅略低于o3(31.6%),但远超其他模型。
gpt-oss在处理需要专业知识和细致沟通的领域(如医疗健康)方面有特殊优势,这可能是其训练数据和微调策略带来的结果。
3. 数学竞赛能力 (AIME 2024 & 2025)
这是衡量模型解决复杂数学竞赛问题的能力。
- 结果:在这个项目上,所有顶级模型的表现都非常接近,准确率都极高。gpt-oss系列与o-series模型互有胜负,例如在AIME 2025上,gpt-oss-20b(98.7%)的表现甚至超过了gpt-oss-120b和o3。
这证明gpt-oss模型具备顶级的逻辑推理和数学计算能力。
4. 综合知识与推理能力 (MMLU, GPQA Diamond, Humanity"s Last Exam)
这几项是衡量模型在学术、科学和跨学科领域的综合知识与问题解决能力的经典基准。
- MMLU (综合学科知识):gpt-oss-120b拿到了90%的准确率,与o4-mini(93%)和o3(93.4%)非常接近,表现出很强的综合知识水平。GPQA Diamond (博士级科学问题):gpt-oss-120b的准确率为80.1%,同样紧随o3(83.3%)和o4-mini(81.4%)之后。Humanity"s Last Exam (专家级问题):gpt-oss-120b(带工具)的准确率为19%,仅次于o3(24.9%),但优于o4-mini(17.7%)。
综合来看,gpt-oss-120b的通用推理和知识储备能力已经达到了与OpenAI自家最先进的专有模型几乎持平的水平。
5. AI代理(Agent)核心能力 (Tau-Bench Retail)
这个基准直接测试模型进行“函数调用”(Function Calling)的能力,这是构建AI代理最核心的技术之一。
- 结果:gpt-oss-120b的准确率为67.8%,非常接近表现最好的o3(70.4%),并且优于o4-mini(65.6%)。
这个数据直接印证了OpenAI官方的说法,gpt-oss是为Agentic工作流设计的。它强大的函数调用能力,意味着我们可以放心地让它去调度各种外部API和工具,来构建更复杂的自动化应用。我之前写过一篇相关的文章,感兴趣您可以看看《函数调用提示词咋写,看下OpenAI发布的Function Calling指南(万字含示例)|最新》
未经监督的“思维链”
这里有个特别有意思的设计,就是模型的思维链(CoT)是未经直接监督的,OpenAI官方说这是为了让CoT更真实地反映模型的“思考过程”。这意味着什么呢?您在调试时看到的CoT,可能就是模型最原始的想法
写在最后
至于怎么用上,模型已经在Hugging Face上开放下载,而且得到了Azure、AWS、NVIDIA等一众大厂的支持,整个生态已经相当成熟,您拿到手就能很快集成到自己的产品里。欢迎您来一起交流使用心得!
文章来自于微信公众号“AI修猫Prompt”。