Gemini 2.0：谷歌最新旗舰级AI，全面支持文本、图像与语音生成 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

Gemini 2.0：谷歌最新旗舰级AI，全面支持文本、图像与语音生成

2024-12-11 / 阅读约4分钟

来源：TechCrunch

谷歌发布了Gemini 2.0 Flash AI模型，能够生成文本、图像和音频，支持第三方应用和服务，将通过Gemini API和谷歌的AI开发者平台提供实验性版本，并将于1月广泛推出。

图片来源：Maxwell Zeff

谷歌近日推出了其最新的AI模型——Gemini 2.0，旨在与OpenAI的系列新品一较高下。

周三，谷歌宣布了Gemini 2.0 Flash的发布。据该公司介绍，该模型不仅能生成文本，还能原生生成图像和音频。此外，2.0 Flash还集成了第三方应用和服务，使其能够接入谷歌搜索、执行代码等多项功能。

从即日起，Gemini 2.0 Flash的实验性版本将通过Gemini API和谷歌的AI开发者平台（包括AI Studio和Vertex AI）向公众开放。然而，音频和图像生成功能目前仅面向“早期访问合作伙伴”开放，预计将于1月全面推广。

谷歌表示，在未来几个月内，它将在Android Studio、Chrome DevTools、Firebase、Gemini Code Assist等产品中陆续推出多个版本的2.0 Flash。

Flash的升级之路

第一代Flash，即1.5 Flash，仅能生成文本，且并非专为处理繁重工作负载而设计。谷歌表示，新模型之所以更加多功能，部分原因在于它能够调用搜索工具并与外部API进行交互。

“我们深知Flash因其速度与性能的完美平衡而深受开发者喜爱，”谷歌Gemini模型产品负责人Tulsee Doshi在周二的一次简报会上表示，“而2.0 Flash在保持速度的同时，功能也更为强大。”

谷歌声称，根据内部测试，在部分基准测试中，2.0 Flash的速度是Gemini 1.5 Pro模型的两倍，并在编码和图像分析等领域实现了“显著”改进。实际上，由于2.0 Flash拥有更出色的数学能力和“真实性”，它已取代1.5 Pro成为旗舰级Gemini模型。

如前所述，2.0 Flash能够生成并修改与文本并行的图像。该模型还能接收照片和视频，以及音频录制，以回答相关问题（如“他说了什么？”）。

音频生成是2.0 Flash的另一大亮点，Doshi将其描述为“可操控”和“可定制”。例如，该模型可使用八种不同的声音来叙述文本，这些声音针对不同口音和语言进行了“优化”。

“你可以要求它说慢点、说快点，甚至可以要求它像海盗一样说话，”她补充道。

作为记者，我有责任指出，谷歌目前尚未提供2.0 Flash的图像或音频样本。因此，我们无法直接评估其质量与其他模型的输出相比如何，至少在撰写本文时仍无法得知。

谷歌表示，它正在使用SynthID技术为2.0 Flash生成的所有音频和图像添加水印。在支持SynthID的软件和平台上（即部分谷歌产品），该模型的输出将被明确标记为合成内容。

此举旨在缓解滥用风险。事实上，深度伪造已成为一个日益严峻的威胁。根据身份验证服务Sumsub的数据，从2023年到2024年，全球检测到的深度伪造数量激增了四倍。

多模态API的推出

虽然2.0 Flash的生产版本将于1月发布，但谷歌同时推出了一个名为多模态实时API的新工具，旨在帮助开发者构建具备实时音频和视频流功能的应用。

谷歌表示，借助多模态实时API，开发者能够创建具有实时、多模态功能的应用，这些应用能够从摄像头或屏幕接收音频和视频输入。该API支持集成工具以完成任务，并能处理“自然对话模式”（如中断），这与OpenAI的实时API颇为相似。

多模态实时API自今晨起已全面开放。

上一篇：对话超参数：Agent诞生于游戏，最终会走进生活

下一篇：物理诺奖得主最新演讲，Hinton带伤飞到瑞典，LSTM之父：都是剽窃

返回列表

热文阅读

2 天前

微软宣布对欧五项数字承诺，计划两年内将欧洲数据中心容量提高 40%

2 天前

μCooling 微机电风扇进入数据中心：xMEMS 推出光模块集成散热方案

2 天前

AMD筹备AM5平台新品：Ryzen 9000G与EPYC 4005 CPU即将面世

2 天前

英特尔揭秘14A工艺性能与“Turbo Cells”新技术，极致提升CPU与GPU频率

2 天前

英特尔锐炫 140V 和 130V 核显驱动更新，显著提升游戏性能

2 天前

SEMI：2025 年一季度硅晶圆出货量同比增长 2.2%，8 英寸及以下出现下滑

2 天前

摩尔线程 Linux 显卡驱动 v3.0.0 发布：架构全面革新，支持 Wayland 协议

2 天前

日月光最旺Q1 EPS 1.75元新台币

2 天前

重磅：英特尔揭秘1.4nm细节，晒神秘AI芯片

2 天前

降低特朗普关税战冲击日月光、友达挥军“美国制造”

上一篇：对话超参数：Agent诞生于游戏，最终会走进生活

下一篇：物理诺奖得主最新演讲，Hinton带伤飞到瑞典，LSTM之父：都是剽窃

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们