Gemini 2.5 Computer Use是什么
Gemini 2.5 Computer Use 是谷歌 DeepMind 推出的基于 Gemini 2.5 的计算机使用模型。模型能让 AI 直接控制浏览器,执行点击、滚动和输入等操作。模型通过视觉理解和推理能力,帮助用户完成各种任务,例如从网页中获取信息或整理笔记。模型在基准测试中表现优异,速度也很快。开发者能通过 Google AI Studio 和 Vertex AI 使用,用户能在 Browserbase 的托管的演示环境中试用。

Gemini 2.5 Computer Use的主要功能
-
浏览器操作:直接在浏览器中执行点击、滚动、输入等基本操作,帮助用户完成网页任务。
-
任务自动化:模型能处理多步复杂任务,例如从一个网站获取信息并输入到另一个系统,或安排后续预约。
-
视觉理解和推理:通过视觉解析网页内容,识别页面元素,根据用户请求推理出下一步操作。
-
安全机制:在执行每个动作前,独立安全服务会评估风险,对于高风险操作会请求用户确认,确保操作安全。
Gemini 2.5 Computer Use的技术原理
- 核心工具:通过 Gemini API 中新增的
computer_use
工具实现,支持模型直接与用户界面交互。 - 输入与输出:
- 输入:用户请求、当前环境的截图、最近执行动作的历史记录。可以指定是否排除某些 UI 动作或添加自定义函数。
- 输出:模型生成响应,通常是代表 UI 动作的函数调用(如点击、输入或滚动)。对于某些高风险操作,模型会请求用户确认。
- 循环流程:模型在一个循环流程中运行,每次执行动作后,系统将最新截图和当前 URL 返回给模型,重新启动循环。循环会持续进行,直到任务完成、出现错误,或因安全机制或用户决定而终止。
- 安全机制:在推理阶段,独立安全服务评估每个模型拟执行的动作,确保操作的安全性。开发者能设定在特定高风险操作前,智能体必须拒绝或请求用户确认。例如,防止模型绕过验证码或控制医疗设备。
Gemini 2.5 Computer Use的项目地址
- 项目官网:https://blog.google/technology/google-deepmind/gemini-computer-use-model/
- 技术论文:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf
Gemini 2.5 Computer Use的应用场景
-
UI 测试:帮助开发者快速测试用户界面,自动化执行各种交互操作,显著提高软件开发效率。
-
个人助理:为用户提供个性化的任务自动化服务,例如自动填写表单、安排预约或整理信息。
-
工作流自动化:简化重复性任务,如数据输入、信息收集和跨平台操作,提升工作效率。
-
客户服务:自动处理客户请求,例如在客户支持系统中填写工单或查询信息,提高响应速度。
-
教育与培训:辅助在线学习平台,帮助学生完成练习或模拟操作,增强学习体验。