标准会员
会员时间
积分 0
还没有账号? 立即注册
已有账号? 立即登录
AI技术专栏作家
机器之心报道编辑:Panda用强化学习让 LLM 具备推理(reasoning)能力确实很有效,但耗费颇高。这类模型在回答问题前会生成一长串的思维链(LongCoT);并且增加「思考 token」 的数量能够提升模型的能力。与任何强化学习问题一样,它存在一个决定轨迹如何生成的环境。对于推理 LLM 而言,这个环境相当简单,以至于常常被忽略:状态(state)是由提示词(prompt)与截至目前已生
2.4k 粉丝
1.8k 粉丝
3.1k 粉丝