AI热点 2月前 160 阅读 0 评论

AI模型横评:回答越简洁,“幻觉率”可能越高!

作者头像

AI技术专栏作家 | 发布了 246 篇文章

您可能喜欢聊天机器人的回应,但这并不意味着它是真实的。最近研究表明,要求任何一款流行的聊天机器人更加简洁地回答问题,“都会极大地影响AI幻觉率”。

法国人工智能测试平台 Giskard 发布了一项针对聊天机器人的研究,对象包括 ChatGPT、Claude、 Gemini、Llama、Grok 和 DeepSeek 等,目的是分析与 AI 幻觉相关的问题。根据 TechCrunch 发布的博客文章显示,分析人员在研究结果中发现,若要求这些 AI 模型简练地回答问题,“会显著降低大多数测试模型的事实可靠性”。

测试过程

当用户发出指示,让模型在回答问题“要简洁””,这些模型最终会“在这些限制条件下,优先考虑简洁性,而非准确性”。研究发现,添加这些指示可能让“AI幻觉抵抗力”下降高达 20%。在接收到“简洁回答”这一指令后,Gemini 1.5 Pro 的幻觉抵抗力从 84% 下降到了 64%、 GPT-4o 的幻觉抵抗力从 74% 下降到了 63%……

抗幻觉能力评分(越高越好)

吉斯卡德将这种效应归因于“更准确的回答往往需要更长的解释”。“当被迫简洁作答时,模型面临着一个两难的选择:要么编造简短但不准确的答案,要么完全拒绝回答问题,这会显得它一无是处。” 文章中如是写道。

虽说为了给用户提供帮助, AI 模型们都经过了“大量训练”,但在如何平衡感知有用性和实际准确性的问题上,可能还是稍显笨拙。最近,OpenAI 不得不撤回他们对 GPT-4o 的更新,原因是它“太谄媚了”,这导致了一些令人不安的情况 —— 它支持一位正在停药的用户继续停药,还鼓励了一位自称是先知的用户。

正如研究人员所解释的那样,模型通常会优先考虑更简洁的响应,以“减少令牌使用量、提高响应速度、并最 大限度地降低成本”。用户也可能为了自身节省成本的动机而特别指示模型简短作答,这可能会导致输出的内容更加不准确。

这项研究还发现,问题的提出方式也会极大地影响模型的回答。它们很容易受到用户语气中“自信程度”的影响。当信息以试探性的方式呈现(诸如“我听说……”)时,模型可能会进行纠正。但如果是以自信的方式呈现同样的错误信息(诸如“我的老师告诉我……”、“我100 %确定……”等),会导致聊天机器人更倾向同意用户的观点,而不是纠正错误的信息。

模型在抗幻觉能力和揭穿真相能力方面的性能比较图。左图展示了模型在不同用户语气(不确定到非常自信)下揭穿争议性言论的准确率。右图展示了模型在不同系统指令(中性答案 vs 简洁答案)下对幻觉的抵抗能力。

这项研究表明,看似微小的调整可能会导致模型产生截然不同的行为,这可能会对错误信息的传播和不准确内容的扩散产生重大影响,而这一切都是为了“尽力满足用户的需求”。正如研究人员所说:“你最 爱的模型可能很善于给出你想要的答案,但这并不意味着这些答案都是正确的。”

(举报)

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!