Google发布Gemini 2.5计算机使用模型

3 小时前

在今年早些时候的Google I/O开发者大会上，Google宣布将为Gemini API引入计算机使用功能。今日，Google正式发布Gemini 2.5计算机使用模型，该模型基于Gemini 2.5 Pro构建，专为AI智能体与用户界面（UI）交互设计。Google表示，新模型在多项网页与移动端控制基准测试中表现优于同类模型，具有更低的响应延迟。该模型通过Gemini API中的新增‘计算机使用’工具提供核心功能，支持页面导航、网页搜索、光标悬停等13种界面操作。开发者可向模型提供用户请求、当前屏幕截图及操作历史，模型将生成界面操作函数调用，如点击或输入，部分高风险操作需用户确认。目前，Gemini 2.5计算机使用模型已通过Google AI Studio和Vertex AI向开发者开放，Browserbase平台也提供在线演示。