图片来源:Maxwell Zeff
谷歌近日推出了其最新的AI模型——Gemini 2.0,旨在与OpenAI的系列新品一较高下。
周三,谷歌宣布了Gemini 2.0 Flash的发布。据该公司介绍,该模型不仅能生成文本,还能原生生成图像和音频。此外,2.0 Flash还集成了第三方应用和服务,使其能够接入谷歌搜索、执行代码等多项功能。
从即日起,Gemini 2.0 Flash的实验性版本将通过Gemini API和谷歌的AI开发者平台(包括AI Studio和Vertex AI)向公众开放。然而,音频和图像生成功能目前仅面向“早期访问合作伙伴”开放,预计将于1月全面推广。
谷歌表示,在未来几个月内,它将在Android Studio、Chrome DevTools、Firebase、Gemini Code Assist等产品中陆续推出多个版本的2.0 Flash。
第一代Flash,即1.5 Flash,仅能生成文本,且并非专为处理繁重工作负载而设计。谷歌表示,新模型之所以更加多功能,部分原因在于它能够调用搜索工具并与外部API进行交互。
“我们深知Flash因其速度与性能的完美平衡而深受开发者喜爱,”谷歌Gemini模型产品负责人Tulsee Doshi在周二的一次简报会上表示,“而2.0 Flash在保持速度的同时,功能也更为强大。”
谷歌声称,根据内部测试,在部分基准测试中,2.0 Flash的速度是Gemini 1.5 Pro模型的两倍,并在编码和图像分析等领域实现了“显著”改进。实际上,由于2.0 Flash拥有更出色的数学能力和“真实性”,它已取代1.5 Pro成为旗舰级Gemini模型。
如前所述,2.0 Flash能够生成并修改与文本并行的图像。该模型还能接收照片和视频,以及音频录制,以回答相关问题(如“他说了什么?”)。
音频生成是2.0 Flash的另一大亮点,Doshi将其描述为“可操控”和“可定制”。例如,该模型可使用八种不同的声音来叙述文本,这些声音针对不同口音和语言进行了“优化”。
“你可以要求它说慢点、说快点,甚至可以要求它像海盗一样说话,”她补充道。
作为记者,我有责任指出,谷歌目前尚未提供2.0 Flash的图像或音频样本。因此,我们无法直接评估其质量与其他模型的输出相比如何,至少在撰写本文时仍无法得知。
谷歌表示,它正在使用SynthID技术为2.0 Flash生成的所有音频和图像添加水印。在支持SynthID的软件和平台上(即部分谷歌产品),该模型的输出将被明确标记为合成内容。
此举旨在缓解滥用风险。事实上,深度伪造已成为一个日益严峻的威胁。根据身份验证服务Sumsub的数据,从2023年到2024年,全球检测到的深度伪造数量激增了四倍。
虽然2.0 Flash的生产版本将于1月发布,但谷歌同时推出了一个名为多模态实时API的新工具,旨在帮助开发者构建具备实时音频和视频流功能的应用。
谷歌表示,借助多模态实时API,开发者能够创建具有实时、多模态功能的应用,这些应用能够从摄像头或屏幕接收音频和视频输入。该API支持集成工具以完成任务,并能处理“自然对话模式”(如中断),这与OpenAI的实时API颇为相似。
多模态实时API自今晨起已全面开放。