美团智能客服提出逆向学习技术精准纠偏，风险控制提升38%

美团智能客服最新研究，提出了一种逆向学习新技术（简称 “逆学习”），能像 “精准手术” 一样，安全、高效地抑制模型中的特定错误和风险行为，在关键风险控制指标上提升 38 个百分点以上的同时，保障整体服务效果不下降，有效提升用户体验。”

背景：智能客服场景下的数据回流方案

美团智能客服采用的端到端大模型智能体，结合数据回流机制，构建了一套从线上服务中自动收集、筛选并利用真实对话数据的闭环优化方案。该方案能够持续从用户交互中挖掘优质应答样本（Good Case）与问题样本（Bad Case），显著提升了模型的指令遵循能力、表达自然度和复杂状态推理性能，在多项业务场景中实现了综合问题解决率的有效增长。其核心优势在于弥补了传统人工标注数据成本高、覆盖有限、更新迟缓的短板，增强了模型对真实用户需求多样性和业务高频变更的适应能力。

图 1：传统智能客服常见的问题

然而，尽管数据回流机制整体提升了服务效果，但由于回流数据源自线上实际交互，未经人工全面审核，仍可能引入错误策略或不当行为，例如生成不合理解决方案、违背用户意图或带来商业风险。这些问题导致个别关键服务质量指标出现显著下降，反映出模型在特定行为控制方面存在严重不足，亟需一种更精准、低成本的控制手段以实现回复安全性与可靠性的平衡。

逆学习精准控制模型行为

逆学习（Unlearning）是一种针对大模型的 “外科手术式” 行为编辑技术，其核心目标是从模型中精准 “切除” 某些不良行为或敏感知识，同时最大程度保留原有能力，无需重新训练整个模型。

针对数据回流中引入的模型行为偏差与风险应答，可采用逆学习方法对特定不良行为进行抑制。该方法通过构造遗忘样本集并设计针对性损失函数和优化算法，使模型迅速降低对不良策略的倾向性，如拒绝生成不合理回复或避免采纳高风险解决方案。相比之下，SFT、DPO 等微调方法依赖大量高质量人工标注，RL 方法则存在 Reward Hacking 和效果不稳定的问题。美团团队提出的精准逆学习算法能够在几乎不影响其他场景性能的前提下，实现快速、低成本的行为控制，从而提升模型在真实服务环境中的可靠性与用户体验。

基于自适应模型参数定位的逆学习方法

项目成员发表于 ICML 2025 的相关论文：https://openreview.net/pdf?id=tcK4PV3VN4

为实现对智能客服模型行为的精准与安全控制，美团北斗计划成员吾尔开希・阿布都克力木和导师程旭欣提出了一种基于自适应模型参数定位的逆学习方法（ALKN）。该方法是在吾尔开希・阿布都克力木作为第一作者发表于 ICML 2025 的论文基础上进一步改进和拓展的成果，旨在以 “精准手术” 的方式高效抑制特定错误行为，同时最大程度保留模型原有能力。其核心思路是先从线上交互中系统性收集需 “遗忘” 的对话数据（如错误解决方案或高风险回复），为逆学习提供明确优化目标。整体算法包含三个关键环节：低熵损失函数优化、对称变换迭代训练以及自适应参数定位机制。下面将分点阐述其原理与优势。

图 2：逆学习方法示意图

对称变换迭代训练 —— 提升训练稳定性：为解决传统逆学习中梯度上升算法不稳定、易导致模型正常性能大幅下降的问题，引入了对称变换迭代训练，基于梯度下降算法优化模型。这种方法通过在每次训练迭代中对模型参数进行模长约束对称变换，将当前参数关于前一迭代参数进行调整，确保更新方向与初始模型保持一致性，从而控制参数偏移幅度。好比温和的康复训练，通过迭代调整参数，增强训练的收敛性和稳定性，同时精准抑制目标行为，最大程度保留模型正常性能。

低熵损失函数优化 —— 抑制噪声样本影响：逆学习训练时，有些无关样本或简单样本反而会带来较大的梯度更新影响模型效果，这是由于 cross-entropy loss 梯度中样本概率的倒数项。为了缓解这一现象，设计了一种低熵损失函数，以初始模型对目标数据的预测置信度作为权重，动态区分核心问题和无关噪声。这就像医生在治疗时只对关键病症下药，最大限度减少副作用，从而降低对模型参数的剧烈扰动，提升训练稳定性。

自适应参数定位 —— 平衡行为抑制与性能保持：为进一步平衡行为抑制与性能保持，设计了一种自适应参数定位算法，精准识别与风险行为相关的关键参数。这就像使用 MRI 扫描仪定位大脑中的病灶区域，仅对关键参数进行稀疏微调，而其他参数保持不变。具体实现上，通过计算风险数据和正常数据的梯度向量，基于其模长和夹角构建重要性度量，并采用滑动平均维护全局度量（如公式 1 所示）。微调时仅更新重要性度量选出的模型参数，从而实现精准的行为遗忘，同时最大程度保留模型的泛化能力。

公式 1：重要性度量更新公式

综上所述，基于自适应模型参数定位的逆学习方法，在行为控制的精准性、训练稳定性和综合性能保持方面均表现出显著优势，为智能客服在面对复杂用户场景和高频业务变更时，提供了一种高效、低成本的模型优化新路径。

在性能表现上，自适应逆学习方法相较于多种基线方法展现出显著优势。基线方法包括原回流方案模型、去除目标数据后通过 SFT 训练的模型，以及使用强模型打标结合人工筛选数据进行 DPO 训练的模型。实验结果表明，自适应逆学习方法（ALKN）的线上指标优于多种基线方法。如图 3 所示，性能指标的变化与风险行为的抑制呈现权衡关系，对模型行为的控制往往伴随着整体性能下降作为代价。虽然 DPO 在行为抑制方面效果较好，但其会导致综合问题解决率和用户满意度等关键指标大幅下降。而自适应逆学习方法得益于低熵损失函数、对称变换迭代训练和自适应参数定位的协同作用，不仅精准抑制目标行为，还能保持整体性能指标基本不变。这种优异表现源于方法对关键参数的精准定位与稀疏微调策略，有效避免了对正常数据性能的破坏，为智能客服场景提供了兼顾行为控制与性能稳定的高效解决方案，显著推动了业务指标的优化和用户体验的提升。

图 3：三种方法在多种参数设置下的性能对比实验

展望

针对精准抑制大模型行为这一挑战问题，未来可进一步与强化学习算法融合，构建混合优化框架，例如利用逆学习思想高效抑制不期望行为，同时引导模型学习更优的替代策略，以填补行为抑制后的策略空缺并增强决策的鲁棒性，从而在动态环境中实现持续的行为优化。此外，自适应参数定位算法的核心思想可推广至不同场景与不同模型中，通过精准参数干预优化隐私保护、跨域适配和模型可控性。随着大模型技术的持续演进，该方法将推动 AI 系统向更精细化、可控化的方向迈进，为多样化的业务需求提供可持续的优化路径，最终实现模型行为与复杂场景需求的深度契合。

作者介绍

吾尔开希・阿布都克力木，本科和博士就读于清华大学自动化系，导师为张长水教授，研究方向是大语言模型与持续学习。他已在顶级学术会议和期刊上发表了十篇论文，其中七篇为第一作者，且有论文入选 ICLR Spotlight。当前，他是美团北斗计划成员，隶属于 LongCat Interaction 团队，主要从事美团本地生活服务大模型的研发以及大模型行为控制与决策方向的研究工作。