让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

来源：IT之家 11 小时前

IT之家 6 月 1 日消息，英伟达今日正式推出英伟达 Cosmos 3，这是一款面向物理人工智能的开放世界基础大模型，依托混合 Transformer 架构打造，在单一系统中融合视觉推理、世界生成与动作预测能力。

英伟达称，Cosmos 3 是全球首款全开源的全模态大模型，可原生理解并生成文本、图像、视频、环境音效及动作内容，物理仿真精度业界领先。它能将物理人工智能的训练与评估周期从数月缩短至数日。

英伟达同时发起英伟达宇宙联盟（NVIDIA Cosmos Coalition），汇聚全球世界模型研发团队与人工智能开发者携手合作，成员包括 Agile Robots、Black Forest Labs、Generalist、LTX、Runway 以及 Skild AI，共同推动下一代世界模型技术发展。

英伟达创始人兼首席执行官黄仁勋表示：“多模态推理语言、视觉与世界模型接连取得突破，物理人工智能的变革时代即将到来。Cosmos 3 系列开源前沿全模态模型，将助力开发者实现技术跨越，打造能在现实世界中感知、推理、规划并执行动作的机器人、自动驾驶汽车及视觉人工智能系统。”

物理人工智能长期面临一大核心难题：如何让机器人、自动驾驶车辆与视觉智能体，依托有限训练数据和零散仿真框架，在真实场景中具备泛化能力。Cosmos 3 就此给出解决方案。

该模型采用混合 Transformer 架构，将推理 Transformer 与专精生成类 Transformer 相结合。模型会先解析物体交互、运动规律以及时空关联关系，再完成视频生成与动作轨迹预测。

Cosmos 3 基于海量多模态物理人工智能数据集训练而成，涵盖数十亿条文本、图像、视频、音效及动作轨迹样本。开发者借助这款预训练基础模型，能用更少数据、更低成本搭建物理人工智能系统。

开发者可将 Cosmos 3 用作三类工具：

1. 多模态图文大模型，实现跨模态理解与推理；

2. 世界模型 / 视频基础模型，仿真物理环境、预判场景未来状态，支撑模型训练与评估；

3. 世界动作模型主干网络，辅助训练机器人完成各类专项任务。

IT之家注意到，在物理人工智能主流评测基准中，Cosmos 3 表现优异。在开源模型范畴内，其世界生成精度在 Artificial Analysis、Physics-IQ、PAI-Bench 和 R-Bench 中排名第一；动作策略能力领跑 RoboLab 和 RoboArena 基准；视觉理解能力位居 VANTAGE-Bench 和 TAR 榜单榜首。

Cosmos 3 提供多个版本，适配物理人工智能不同研发阶段需求：

Cosmos 3 Super：面向机器人与自动驾驶模型的二次训练，追求极致物理精度与生成效果；
Cosmos 3 Nano：数秒内即可完成高品质视频解析与动作推理；
Cosmos 3 Edge：即将上线，主打边缘端实时推理。

Cosmos 3 Super 与 Nano 现已正式推出，Edge 版也即将上线，支持边缘端实时推理。

相关新闻