谷歌发布Gemini 2.5 Computer Use模型：专攻浏览器交互

3 小时前

谷歌正预览其全新Gemini人工智能模型——"Gemini 2.5 计算机使用"。该模型具备浏览器网络浏览与交互能力，能利用"视觉理解与推理能力"分析用户请求并完成任务，如填写和提交表单。它适用于用户界面测试等场景，此前已在谷歌AI模式及"Mariner"项目中应用。此次发布紧随OpenAI宣布推出ChatGPT新应用之后，OpenAI聚焦"ChatGPT智能体"功能，而Anthropic去年已发布了Claude AI模型的"计算机使用"版本。谷歌发布了演示视频，并宣称其模型在多基准测试中表现优于现有方案。不过，该模型目前仅限于浏览器环境访问，支持13种操作。目前，该模型已通过Google AI Studio和Vertex AI向开发者开放，Browserbase平台也提供了在线演示。