Klear-Reasoner – 快手开源的推理模型
# AI工具,# AI项目和框架 AI视频

Klear-Reasoner – 快手开源的推理模型

作者头像 AI中国 2小时前 146 阅读
4.8 (1280评分)
15,328人已学习

Klear-Reasoner是什么

Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型,专注于提升数学和代码推理能力。模型通过长思维链监督微调(long CoT SFT)和强化学习(RL)训练,核心创新是 GPPO算法,通过保留被裁剪的梯度信息,解决传统方法中探索能力受限和负样本收敛慢的问题,在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reasoner 的训练细节和全流程公开,为推理模型的发展提供重要的参考和复现路径。

Klear-Reasoner的主要功能

  • 数学推理:Klear-Reasoner 在复杂的数学问题上表现出色,能解决高难度的数学竞赛题目。
  • 代码生成与推理:能生成高质量的代码,通过 LiveCodeBench V5 和 V6 的评测,分别达到 66.0% 和 58.1% 的准确率。
  • 长思维链推理:Klear-Reasoner 能处理复杂的长思维链任务,通过长思维链监督微调(long CoT SFT)和强化学习(RL)训练,提升模型在多步推理中的表现。
  • 数据质量优化:在训练过程中,Klear-Reasoner 优先选择高质量数据源,确保模型学习到准确的推理模式,保留部分错误样本提升模型的探索能力。

Klear-Reasoner的技术原理

  • 长思维链监督微调(long CoT SFT):用高质量的数据源进行监督微调,确保模型学习到准确的推理模式。优先选择少数高质量数据源,避免低质量数据引入噪声。保留部分错误样本,尤其是在高难度任务中,有助于模型的探索能力。
  • 强化学习(RL):用强化学习进一步提升模型的推理能力,特别是在数学和代码任务上。基于软奖励机制,根据测试用例的通过率给予奖励,缓解奖励稀疏问题,提升训练效率。过滤掉测试用例存在问题的数据,确保训练数据的高质量。
  • GPPO(Gradient-Preserving Clipping Policy Optimization)算法:传统 PPO 和 GRPO 算法中,clip 操作会丢弃高熵 token 的梯度,限制模型的探索能力,导致负样本延迟收敛。GPPO 基于 stop gradient 操作,将 clip 操作与梯度反向传播解耦,保留所有 token 的梯度。对于高熵 token,GPPO 保留其梯度并约束在一定范围内。对于负样本 token,GPPO 保留梯度并限制在一定幅度内,加快错误修正速度。
  • 软奖励机制:在代码任务的强化学习中,用软奖励机制(根据测试用例的通过率给予奖励)比硬奖励(完全通过得分,否则为零)更有效。软奖励机制能缓解奖励稀疏问题,增加训练信号的密度,降低梯度估计的方差,使模型的学习过程更稳定、更高效。

Klear-Reasoner的项目地址

  • GitHub仓库:https://github.com/suu990901/KlearReasoner/
  • HuggingFace模型库:https://huggingface.co/Suu/Klear-Reasoner-8B
  • arXiv技术论文:https://arxiv.org/pdf/2508.07629

Klear-Reasoner的应用场景

  • 教育领域:作为智能数学家教,为学生提供详细的解题步骤和推理过程,帮助用户更好地理解和掌握数学知识。
  • 软件开发:自动生成高质量代码片段,辅助开发者快速实现功能模块,同时提供代码审查建议,提高代码质量和开发效率。
  • 金融科技:分析金融数据进行风险评估和预测,为金融机构提供逻辑推理支持,助力更精准的决策制定。
  • 科研与数据分析:Klear-Reasoner 能处理复杂的数据分析和科学计算任务,为研究人员提供逻辑推理和模型解释,提升科研效率。
  • 智能客服:快速准确地解答用户复杂问题,提供清晰的推理过程,提升用户体验和问题解决效率。

教程评分

4.8 (1280 人评分)

学习讨论 (42)

用户头像

初学者

2天前

非常棒的教程!

作者头像

AI导师李明 作者

1天前

多谢