RoboScience机器科学发布Visics通用具身大模型，实现跨本体、跨物体、跨任务｜最前线

来源：36kr 12 小时前

作者｜黄楠

编辑｜袁斯来

6月24日，通用具身智能企业RoboScience机器科学通用具身大模型发布，首次完整披露自研Visics大模型的技术架构VLOA（Vision-Language-Object-Action），并展示了模型在家具拼装、灵巧抓取、动态流水线等多项真实场景的应用。

大语言模型有标准的文本Token，自动驾驶有统一的视觉或点云表征，这些基础格式的确定，让数据和模型可以在不同场景之间复用。但具身智能至今没有一个被行业公认的基础表征单元，其决定了数据如何采、模型从哪学、以及学习后是否能迁移至新场景。

过去两年，行业主流做法是让模型直接学习机器人的关节运动轨迹，即复刻某一个特定硬件在特定任务下的动作坐标。这套逻辑的问题在于，换一台机器人、换一个物体、换一个场景，模型此前所习得能力无法直接迁移复用。它学会的是“夹爪怎么抓起杯子”，而非理解“抓取”这个动作本身，即什么是抓、需要多大的力、物体受力后会怎么反应。

RoboScience机器科学创始人兼CEO田野指出，当前机器人操作面临泛化能力差、精细操作难、长程任务误差累积三大核心瓶颈。为此，团队选择从底层出发，搭建一套全新的具身基础表征单元。

RoboScience机器科学创始人兼CEO田野（图源/企业）

作为整套技术体系的核心底座，RoboScience机器科学自研了Visics通用具身大模型，提出Object Trajectory（物体3D点云轨迹）统一中间表征标准，以此搭建分层解耦的VLOA架构，围绕物体为中心，重构机器人的认知与执行逻辑。

田野解释称，“Object这个词同时包含物体、目标两层含义，能够精准定义机器人与物件的交互关系，以及操作后物体需要达成的运动变化状态。”

Visics通用具身大模型内部采用双引擎架构，由具身世界模型和通用操作模型各自独立运转，分开预训练、分别迭代，互不干扰。其中，具身世界模型以海量互联网视频作为预训练数据，围绕物体状态、三维轨迹、接触力与物理因果关系建模，学习物体在真实世界中的运动规律。

Visics通用具身大模型，VLOA架构（图源/企业）

通用操作模型则负责把“物体运动轨迹”转化为“机器人该怎么做”。它通过物理引擎生成大规模仿真数据持续迭代，能够操作刚体、铰链件、软质可形变体等各类物体，支持跨本体部署与闭环控制，同时兼容视觉、触觉、力觉等多模态感知输入。

两大引擎通过VLOA架构完成分层协同，Object Trajectory作为统一中间接口，上层具身世界模型负责预判、推演物体合理运动轨迹，下层通用操作模型给出适配各类机器人的硬件控制指令、负责落地执行轨迹。

这种分层解耦的设计，最终实现三大维度的全域泛化，适配任意机器人本体、操作任意类型物体、自主完成多样化任务。以抓取动作为例，对比传统绑定单一机械臂、单一物件的训练方案，基于VLOT架构的模型在抓取成功率、操作姿态丰富度、运算响应速度上均有明显提升。

搭载Visics通用具身大模型的机械臂执行拼家具任务（图源/企业）

在具身智能领域，数据是模型能力的根基，但传统数据路线正面临成本与产能的双重天花板。

RoboScience机器科学以自研高精度仿真引擎RoboMirage为核心，结合全自动视频数据标注与清洗管线，构建了一套“仿真+视频”双数据飞轮。这套体系可将单条数据的获取成本压至传统方案的1/20至1/200，并以每周数十万小时的速度持续扩张，预计2026年将构建超过1T高质量manipulation操作轨迹数据集。

RoboScience机器科学联合创始人汪涛（图源/企业）

自成立以来，RoboScience机器科学已获得京东集团、商汤科技、达晨财智、招商局创投、零一创投、普华资本等多家CVC和财务机构的投资及产业支持，在北京、深圳、苏州、杭州设有研发和生产中心。公司以大模型为核心，纵向打通自研本体、控制器与RobotOS，横向构建模型泛化、便捷开发与多层级生态，搭建软硬一体、闭环协同的商业模式。

联合创始人汪涛指出，具身智能真正的规模化落地尚未到来，公司选择先从物体维度切入，即解决对刚性、柔性及各种属性物体的泛化操作能力，而非直接进入工业场景与自动化方案竞争。如商超、电商物流等场景，天然面临海量SKU、多品类的拣选与补货需求，正是验证物体维度泛化能力的最佳试验场。

目前，RoboScience机器科学已同多家零售、物流、康养服务企业及机器人本体、灵巧手公司开展试点合作，计划于今年实现面向工业与商业场景的标准化机器人本体产品量产。

相关新闻