AI热点 4天前 60 阅读 0 评论

微软新研究:当前 AI 代理易被操控,选择太多还会“犯迷糊”

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

IT之家 11 月 6 日消息,微软周三发布了一个用于测试人工智能代理(AI agents)的新仿真环境,并同期发表了一项新研究,揭示当前的代理模型可能容易受到操控。这项由微软与亚利桑那州立大学合作开展的研究,对 AI 代理在无人监督情况下执行任务的可靠性提出了新疑问,同时也质疑 AI 企业能否迅速兑现其关于“代理化未来”(agentic future)的承诺。

图源:微软官网

该仿真环境由微软命名为“Magentic Marketplace”(磁性市场),是一个用于实验 AI 代理行为的人工合成平台。典型的实验场景包括:一个代表用户的“客户代理”试图依照用户指令订购晚餐,而代表不同餐厅的多个“商家代理”则竞相争取这笔订单。

研究团队的初步实验涉及 100 个客户侧代理与 300 个商家侧代理之间的互动。由于该市场平台的源代码已开源,其他研究团队可轻松复用该代码开展新实验或验证已有结果。

微软研究院 AI 前沿实验室(AI Frontiers Lab)董事总经理埃杰・卡马尔(Ece Kamar)表示,此类研究对于深入理解 AI 代理的能力至关重要。“当这些代理开始彼此协作、对话和协商时,世界将如何改变,这确实是一个值得探讨的问题,”卡马尔说,“我们希望深入理解这些现象。”

据IT之家了解,初步研究测试了包括 GPT-4o、GPT-5 以及 Gemini-2.5-Flash 在内的主流模型,发现了它们一些令人意外的弱点。研究人员尤其指出,商家可通过若干策略操控客户代理,使其更倾向于购买特定产品。此外,当客户代理面对过多选项时,其决策效率显著下降 —— 这表明代理的注意力机制在选项过多时容易过载。

“我们希望这些代理能帮助我们处理海量选项,”卡马尔表示,“但我们发现,当前模型在面对过多选择时实际上陷入了严重的信息过载。”

研究还发现,当多个代理被要求为实现共同目标而协作时,它们往往难以明确各自在协作中的角色分工。虽然在提供更明确的协作指令后,代理的表现有所提升,但研究人员仍认为模型本身的协作能力亟待加强。

“我们可以一步步指示模型该做什么,”卡马尔解释道,“但如果我们的目标本身就是测试它们内在的协作能力,那么我本应期待这些模型默认就具备这样的能力。”

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!