AI热点 7小时前 93 阅读 0 评论

艾伦・图灵研究所等最新研究:只需 250 份恶意文档就能攻破任意体量 AI 模型

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

感谢IT之家网友 Coje_He 的线索投递!

IT之家 10 月 11 日消息,据外媒 TechXplore 10 日报道,Anthropic、英国 AI 安全研究院和艾伦・图灵研究所的最新研究发现,即使是体量最大的 AI 模型,只需约 250 份恶意文档,就可能被成功入侵。

大语言模型的训练数据大多来自公开网络,从而使其能积累庞大知识库、生成自然语言,但同时也暴露在数据投毒的风险之下。

过去普遍认为,随着模型规模变大,风险会被稀释,因为投毒数据的比例需保持恒定。也就是说,要污染巨型模型需要极多的恶意样本。然而,发表在 arXiv 平台上的这项研究颠覆了这一假设 —— 攻击者只需极少量恶意文件,就能造成严重破坏。

研究团队为了验证攻击难度,从零构建了多款模型,规模从 6 亿到 130 亿参数不等。每个模型都使用干净的公开数据训练,但研究人员分别在其中插入 100 到 500 份恶意文件

随后,团队尝试通过调整恶意数据的分布方式或注入时机来防御攻击,并在模型微调阶段再次进行测试。

结果令人震惊:模型规模几乎不起作用。仅 250 份恶意文档就能在所有模型中成功植入“后门”(IT之家注:一种让 AI 被触发后执行有害指令的隐秘机制)。即使是那些训练数据量比最小模型多出 20 倍的大模型,也同样无法抵御攻击。额外添加干净数据既无法稀释风险,也无法防止入侵

研究人员指出,这意味着防御问题比预想更迫切。与其盲目追求更大的模型,AI 领域更应聚焦安全机制的建设。有关论文提到:“我们的研究显示,大模型受到数据投毒植入后门的难度并不会随规模增加而上升,这说明未来亟需在防御手段上投入更多研究。”

论文链接:

  • [2510.07192] Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!