在今年早些时候的Google I/O开发者大会上,Google宣布将为Gemini API引入计算机使用功能。今日,Google正式发布Gemini 2.5计算机使用模型,该模型基于Gemini 2.5 Pro构建,专为AI智能体与用户界面(UI)交互设计。Google表示,新模型在多项网页与移动端控制基准测试中表现优于同类模型,具有更低的响应延迟。该模型通过Gemini API中的新增‘计算机使用’工具提供核心功能,支持页面导航、网页搜索、光标悬停等13种界面操作。开发者可向模型提供用户请求、当前屏幕截图及操作历史,模型将生成界面操作函数调用,如点击或输入,部分高风险操作需用户确认。目前,Gemini 2.5计算机使用模型已通过Google AI Studio和Vertex AI向开发者开放,Browserbase平台也提供在线演示。