开源大模型正在加速“去中心化”的AI革命。本地部署不再是高门槛操作，而是每位开发者都能掌握的能力。本文将带你快速上手，体验 o4-mini 同级模型的强大表现。

欢迎来到gpt-oss系列，这是OpenAI推出的开放权重模型，专为强大的推理、代理任务和多功能开发者用例而设计。

OpenAI发布了两种开放模型：

gpt-oss-120b— 适用于生产、通用和高推理用例，可在一块H100 GPU上运行（1170 亿参数，其中 51 亿为活跃参数）。

gpt-oss-20b— 适用于低延迟、本地或专用用例（210 亿参数，其中 36 亿为活跃参数）。

这两个模型均使用我们的harmony响应格式进行训练，并且只能与该格式一起使用，否则将无法正常工作。

下面以gpt-oss-120b模型为例讲解本地部署教程。如需了解较小的模型，请将参数换成gpt-oss-20b即可。

亮点

宽松的Apache2.0许可证：可自由构建，不受反向许可证限制或专利风险，非常适合实验、定制和商业部署。
可配置的推理工作量：根据您的具体用例和延迟需求，轻松调整推理工作量（低、中、高）。
完整的思维链：可以完全访问模型的推理过程，从而更轻松地进行调试并提高对输出的信任度。不适合向最终用户展示。
可微调：通过参数微调，将模型完全定制到您的特定用例。
代理功能：利用模型的原生功能进行函数调用、网页浏览、Python代码执行和结构化输出。
原生MXFP4量化：模型采用原生MXFP4精度训练MoE层，使得gpt-oss-120b可以在单个H100GPU上运行，而gpt-oss-20b模型可以在16GB内存中运行。

推理示例

Transformers

您可以使用Transformers运行gpt-oss-120b和gpt-oss-20b。如果您使用Transformers聊天模板，它会自动应用harmony响应格式。如果您直接使用model.generate，则需要使用聊天模板手动应用harmony格式，或使用我们的openai-harmony软件包。

首先，安装必要的依赖项来设置您的环境：

pip install -U transformers kernels torch

设置完成后，您可以通过运行以下代码片段来运行模型：

from transformers import pipelineimport torchmodel_id = “openai/gpt-oss-120b”pipe = pipeline( “text-generation”, model=model_id, torch_dtype=”auto”, device_map=”auto”,)messages = [ {“role”: “user”, “content”: “Explain quantum mechanics clearly and concisely.”},]outputs = pipe( messages, max_new_tokens=256,)print(outputs[0][“generated_text”][-1])

另外，您还可以通过Transformers Serve运行模型，以启动一个与 OpenAI 兼容的网络服务器：

transformers servetransformers chat localhost:8000 –model-name-or-path openai/gpt-oss-120b

了解更多关于如何将gpt-oss与Transformers配合使用的信息。

vLLM

vLLM推荐使用uv来管理 Python 依赖项。您可以使用vLLM启动一个与 OpenAI 兼容的网络服务器。以下命令将自动下载模型并启动服务器。

uv pip install –pre vllm==0.10.1+gptoss –extra-index-url https://wheels.vllm.ai/gpt-oss/ –extra-index-url https://download.pytorch.org/whl/nightly/cu128 –index-strategy unsafe-best-matchvllm serve openai/gpt-oss-120b

了解更多关于如何将gpt-oss与vLLM配合使用的信息。

PyTorch / Triton

要了解如何将此模型与PyTorch和Triton配合使用，请查阅gpt-oss仓库中的参考实现。

Ollama

如果您尝试在消费级硬件上运行gpt-oss，您可以在安装Ollama后运行以下命令：

# gpt-oss-120bollama pull gpt-oss:120bollama run gpt-oss:120b

了解更多关于如何将gpt-oss与Ollama配合使用的信息。

LM Studio

如果您正在使用LM Studio，您可以使用以下命令进行下载：

# gpt-oss-120blms get openai/gpt-oss-120b

请查阅我们的awesome list，以获取更广泛的gpt-oss资源和推理合作伙伴集合。

下载模型

您可以直接从Hugging Face CLI从Hugging Face Hub下载模型权重：

gpt-oss-120bhuggingface-cli download openai/gpt-oss-120b –include “original/*” –local-dir gpt-oss-120b/`pip install gpt-osspython -m gpt_oss.chat model/

推理级别

您可以根据您的任务需求调整推理级别：

低：快速响应，适用于一般对话。
中：速度和细节之间取得平衡。
高：深入而详细的分析。推理级别可以在系统提示中设置，例如：“Reasoning:high”。

工具使用

gpt-oss模型非常适合：

网页浏览（使用内置浏览工具）。
使用定义的模式进行函数调用。
代理操作，例如浏览器任务。

微调

两种gpt-oss模型都可以针对各种专用用例进行微调。

较大的gpt-oss-120b模型可以在单个H100节点上进行微调，而较小的gpt-oss-20b甚至可以在消费级硬件上进行微调。

作者：乔伊公众号：次元乔伊

本文由 @乔伊原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

登录账号

ChatGPT开源模型本地部署安装教程来啦！模型能力等于 OpenAI o4-mini

PyTorch

亮点

推理示例

Transformers

vLLM

PyTorch / Triton

Ollama

LM Studio

下载模型

推理级别

工具使用

微调

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线作者

科技观察家

文章章节

推荐文章

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

AI的开源战略

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

国际刑事法院也“踢掉”了微软Office！因邮箱一度“被封”，决定改为开源替代品openDesk

14.7Kstar！开源项目ebook2audiobook：一键将电子书转为有声读物

360开源全球最强图文模型FG-CLIP2：中英文任务双双登顶 SOTA！

速抢（2核2G）77元/年香港免备案服务器

Awesome Llm Apps

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

登录账号

ChatGPT开源模型本地部署安装教程来啦！模型能力等于 OpenAI o4-mini

PyTorch

亮点

推理示例

Transformers

vLLM

PyTorch / Triton

Ollama

LM Studio

下载模型

推理级别

工具使用

微调

AI前线

评论 (128)

AI爱好者

开发者小明

AI前线 作者

科技观察家

文章章节

推荐文章

刚刚，华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

AI的开源战略

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

国际刑事法院也“踢掉”了微软Office！因邮箱一度“被封”，决定改为开源替代品openDesk

14.7Kstar！开源项目ebook2audiobook：一键将电子书转为有声读物

360开源全球最强图文模型FG-CLIP2：中英文任务双双登顶 SOTA！

速抢（2核2G）77元/年香港免备案服务器

Awesome Llm Apps

热门标签

热门作者

AI前沿

机器学习实验室

AI创业圈

AI前线作者