Gemini 2.5 Computer Use – 谷歌推出的计算机使用模型
# AI工具,# AI项目和框架 AI视频

Gemini 2.5 Computer Use – 谷歌推出的计算机使用模型

作者头像 AI中国 14小时前 94 阅读
4.8 (1280评分)
15,328人已学习

Gemini 2.5 Computer Use是什么

Gemini 2.5 Computer Use 是谷歌 DeepMind 推出的基于 Gemini 2.5 的计算机使用模型。模型能让 AI 直接控制浏览器,执行点击、滚动和输入等操作。模型通过视觉理解和推理能力,帮助用户完成各种任务,例如从网页中获取信息或整理笔记。模型在基准测试中表现优异,速度也很快。开发者能通过 Google AI Studio 和 Vertex AI 使用,用户能在 Browserbase 的托管的演示环境中试用。

Gemini 2.5 Computer Use

Gemini 2.5 Computer Use的主要功能

  • 浏览器操作:直接在浏览器中执行点击、滚动、输入等基本操作,帮助用户完成网页任务。
  • 任务自动化:模型能处理多步复杂任务,例如从一个网站获取信息并输入到另一个系统,或安排后续预约。
  • 视觉理解和推理:通过视觉解析网页内容,识别页面元素,根据用户请求推理出下一步操作。
  • 安全机制:在执行每个动作前,独立安全服务会评估风险,对于高风险操作会请求用户确认,确保操作安全。

Gemini 2.5 Computer Use的技术原理

  • 核心工具:通过 Gemini API 中新增的 computer_use 工具实现,支持模型直接与用户界面交互。
  • 输入与输出
    • 输入:用户请求、当前环境的截图、最近执行动作的历史记录。可以指定是否排除某些 UI 动作或添加自定义函数。
    • 输出:模型生成响应,通常是代表 UI 动作的函数调用(如点击、输入或滚动)。对于某些高风险操作,模型会请求用户确认。
  • 循环流程:模型在一个循环流程中运行,每次执行动作后,系统将最新截图和当前 URL 返回给模型,重新启动循环。循环会持续进行,直到任务完成、出现错误,或因安全机制或用户决定而终止。
  • 安全机制:在推理阶段,独立安全服务评估每个模型拟执行的动作,确保操作的安全性。开发者能设定在特定高风险操作前,智能体必须拒绝或请求用户确认。例如,防止模型绕过验证码或控制医疗设备。

Gemini 2.5 Computer Use的项目地址

  • 项目官网:https://blog.google/technology/google-deepmind/gemini-computer-use-model/
  • 技术论文:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use的应用场景

  • UI 测试:帮助开发者快速测试用户界面,自动化执行各种交互操作,显著提高软件开发效率。
  • 个人助理:为用户提供个性化的任务自动化服务,例如自动填写表单、安排预约或整理信息。
  • 工作流自动化:简化重复性任务,如数据输入、信息收集和跨平台操作,提升工作效率。
  • 客户服务:自动处理客户请求,例如在客户支持系统中填写工单或查询信息,提高响应速度。
  • 教育与培训:辅助在线学习平台,帮助学生完成练习或模拟操作,增强学习体验。

教程评分

4.8 (1280 人评分)

学习讨论 (42)

用户头像

初学者

2天前

非常棒的教程!

作者头像

AI导师李明 作者

1天前

多谢