Gemini 2.5 Computer Use – 谷歌推出的计算机使用模型

# AI工具,# AI项目和框架 AI视频

Gemini 2.5 Computer Use – 谷歌推出的计算机使用模型

作者头像

AI中国 7月前 146 阅读

4.8 (1280评分)

15,328人已学习

Gemini 2.5 Computer Use是什么

Gemini 2.5 Computer Use 是谷歌 DeepMind 推出的基于 Gemini 2.5 的计算机使用模型。模型能让 AI 直接控制浏览器，执行点击、滚动和输入等操作。模型通过视觉理解和推理能力，帮助用户完成各种任务，例如从网页中获取信息或整理笔记。模型在基准测试中表现优异，速度也很快。开发者能通过 Google AI Studio 和 Vertex AI 使用，用户能在 Browserbase 的托管的演示环境中试用。

Gemini 2.5 Computer Use

Gemini 2.5 Computer Use的主要功能

浏览器操作：直接在浏览器中执行点击、滚动、输入等基本操作，帮助用户完成网页任务。
任务自动化：模型能处理多步复杂任务，例如从一个网站获取信息并输入到另一个系统，或安排后续预约。
视觉理解和推理：通过视觉解析网页内容，识别页面元素，根据用户请求推理出下一步操作。
安全机制：在执行每个动作前，独立安全服务会评估风险，对于高风险操作会请求用户确认，确保操作安全。

Gemini 2.5 Computer Use的技术原理

核心工具：通过 Gemini API 中新增的 computer_use 工具实现，支持模型直接与用户界面交互。
输入与输出：
- 输入：用户请求、当前环境的截图、最近执行动作的历史记录。可以指定是否排除某些 UI 动作或添加自定义函数。
- 输出：模型生成响应，通常是代表 UI 动作的函数调用（如点击、输入或滚动）。对于某些高风险操作，模型会请求用户确认。
循环流程：模型在一个循环流程中运行，每次执行动作后，系统将最新截图和当前 URL 返回给模型，重新启动循环。循环会持续进行，直到任务完成、出现错误，或因安全机制或用户决定而终止。
安全机制：在推理阶段，独立安全服务评估每个模型拟执行的动作，确保操作的安全性。开发者能设定在特定高风险操作前，智能体必须拒绝或请求用户确认。例如，防止模型绕过验证码或控制医疗设备。

Gemini 2.5 Computer Use的项目地址

项目官网：https://blog.google/technology/google-deepmind/gemini-computer-use-model/
技术论文：https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use的应用场景

UI 测试：帮助开发者快速测试用户界面，自动化执行各种交互操作，显著提高软件开发效率。
个人助理：为用户提供个性化的任务自动化服务，例如自动填写表单、安排预约或整理信息。
工作流自动化：简化重复性任务，如数据输入、信息收集和跨平台操作，提升工作效率。
客户服务：自动处理客户请求，例如在客户支持系统中填写工单或查询信息，提高响应速度。
教育与培训：辅助在线学习平台，帮助学生完成练习或模拟操作，增强学习体验。

教程评分

4.8 (1280 人评分)

学习讨论 (42)

用户头像

初学者

2天前

非常棒的教程！

作者头像

AI导师李明作者

1天前

多谢

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

OmniVinci – NVIDIA推出的全模态大语言模型

OmniVinci – NVIDIA推出的全模态大语言模型

6月前 • AI视频

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

SAIL-Embedding – 抖音联合港中文推出的全模态嵌入模型

6月前 • AI视频

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

FG-CLIP 2 – 360开源的双语细粒度视觉语言对齐模型

6月前 • AI视频

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI视频

Handy – 开源的语音转文字桌面应用，完全离线

Handy – 开源的语音转文字桌面应用，完全离线

6月前 • AI视频

UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

UniWorld V2 – 兔展智能联合北大推出的图像编辑模型

6月前 • AI视频

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

讯飞星火X1.5 – 科大讯飞推出的深度推理大模型

6月前 • AI视频

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

UNO-Bench – 美团LongCat推出的全模态大模型评测基准

6月前 • AI视频

热门标签

Kokoro faiss 浏览器市场杜健虚拟访谈义乌商城集团扩展短剧脚本 Video-XL-2 星流AI模型

热门作者

作者头像

AI前沿

2.4k 粉丝

作者头像

机器学习实验室

1.8k 粉丝

作者头像

AI创业圈

3.1k 粉丝