NVIDIA Nemotron Nano 2是什么
NVIDIA Nemotron Nano 2 是英伟达推出的高效推理模型,参数量为9B。模型基于混合Mamba-Transformer架构,在20万亿个token上预训练,支持128k上下文长度。相比Qwen3-8B,推理速度提升6倍,准确率相当或更高。模型具备思考预算控制功能,用户能指定推理token数量。英伟达开源了基础模型和大部分预训练数据集,助力开发者进一步研究与应用。

NVIDIA Nemotron Nano 2的主要功能
- 高吞吐量:NVIDIA Nemotron Nano 2 在复杂推理任务中表现出色,吞吐量比 Qwen3-8B 高达 6 倍。
- 长上下文支持:支持 128k 的上下文长度,能在单个 NVIDIA A10G GPU 上进行推理,适合处理长文本和复杂任务。
- 推理过程支持:模型在生成最终答案前生成推理过程(reasoning trace),用户能指定模型的“思考”预算。
- 灵活的输出模式:用户能选择跳过中间推理步骤,直接获取最终答案。
- 多语言能力:预训练数据集包含多种语言的数据,支持强大的多语言推理能力。
- 多领域覆盖:涵盖数学、代码、学术、STEM 等多个领域的数据,适合多种应用场景。
NVIDIA Nemotron Nano 2的技术原理
- 混合 Mamba-Transformer 架构:用 Mamba-2 层替代传统 Transformer 中的大部分自注意力层,显著提升推理速度,特别是在生成长推理链时。Transformer 层保留部分自注意力层,保持模型的灵活性和准确性。
- 预训练过程:在 20 万亿个 token 上进行预训练,用 FP8 精度和 Warmup-Stable-Decay 学习率调度。通过持续预训练长上下文扩展阶段,使模型能处理 128k 的上下文长度,不降低其他基准测试的性能。
- 后训练优化:监督微调(SFT)对模型进行监督微调,提升其在特定任务上的表现。通过策略优化提升模型的指令遵循能力。优化模型的偏好,让模型更符合人类的偏好。通过人类反馈进行强化学习,提升模型的对话能力和指令遵循能力。
- 模型压缩:基于剪枝和知识蒸馏技术,将 12B 参数的基础模型压缩到 9B 参数,同时保持模型的性能。优化模型支持在单个 NVIDIA A10G GPU 上进行 128k token 的上下文推理,显著降低推理成本。
- 推理预算控制:基于截断训练,模型能根据用户指定的“思考”预算进行推理,避免不必要的计算。用户能灵活控制模型的推理过程,选择是否展示推理过程或直接获取最终答案。
NVIDIA Nemotron Nano 2的项目地址
- 项目官网:https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/
- HuggingFace模型库:https://huggingface.co/collections/nvidia/nvidia-nemotron-689f6d6e6ead8e77dd641615
- 技术论文:https://research.nvidia.com/labs/adlr/files/NVIDIA-Nemotron-Nano-2-Technical-Report.pdf
- 在线体验Demo:https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2
NVIDIA Nemotron Nano 2的应用场景
- 教育领域:在教育领域,帮助学生解决复杂的数学和科学问题。通过逐步推理的方式解释复杂的数学公式或物理定律,帮助学生更好地理解和掌握知识。
- 学术研究:研究人员进行学术研究,生成详细的推理过程和分析报告,辅助论文撰写和实验设计。
- 软件开发:开发者生成高质量的代码片段,帮助快速开发和优化代码。
- 编程教育:在编程教育中,模型提供代码示例和解释,帮助初学者更好地理解编程语言和算法。
- 客户服务:在客户服务领域,作为多语言聊天机器人,提供高效且准确的客户支持。