6月24日,RoboScience机器科学发布通用具身大模型Visics,并首次完整披露VLOA(
Vision-Language-Object-Action)双引擎架构。

这家成立于2024年的具身智能公司,上月刚完成10亿元A轮融资。其核心团队横跨AI平台、机器人量产、学术研究和产业投资等领域,创始人兼CEO田野曾任苹果AI Platform技术负责人。
发布会最有辨识度的部分,落在VLOA中间的“O”。
RoboScience机器科学将其定义为Object Trajectory,即物体3D点云轨迹。它被放在语言理解与机器人动作之间,作为具身世界模型和通用操作模型的中间接口。
换句话说,模型先回答“物体应该发生什么变化”,再决定机器人该如何移动、在哪里接触、施加多大的力。
01.
先定义物体怎么变化
在常见的机器人学习范式中,动作数据往往与具体硬件绑定。
同样是把一个物体移到指定位置,二指夹爪、五指灵巧手和双臂机器人对应的关节空间、控制参数与接触方式完全不同。模型直接学习“手怎么动”,更换机器人本体后,原有数据和策略的迁移效率可能快速下降。
RoboScience机器科学把被操作物体的状态变化抽取出来。以叠衣服为例,模型关注衣服如何从摊开状态逐步折叠成目标形态;以抓取为例,关注物体如何从初始位置移动到指定位置。至于执行者使用夹爪、三指手还是五指手,由下层模型结合具体本体处理。
这相当于在任务语义和机器人动作之间,建立一套统一的物体轨迹表征。机器人本体、物体属性和任务目标的差异,由此被放进同一个表示空间中处理。

RoboScience机器科学联合创始人兼执行总裁汪涛在现场将Object Trajectory类比为具身智能的“token”。按照他的解释,物体的连续3D点云轨迹可以统一描述刚体、铰链体以及一维、二维、三维可形变物体的位置、姿态与形态变化。
不过,此处的“点云”并不等同于深度相机直接采集的点云数据。
发布会现场,RoboScience机器科学创始人兼CEO田野进一步解释,Object Trajectory是一种更高层的数学表征。深度相机只能观察物体的部分表面,还可能受到遮挡和噪声影响。具身世界模型需要补全不可见区域,生成完整物体的运动轨迹,再交给通用操作模型。
Visics将学习焦点放在被操作物体的状态变化上。这一设计让上层任务表征与具体机器人硬件解耦,为跨视角数据利用以及跨本体训练和部署提供了更大的灵活性。
02.
一个负责预演,一个负责执行
基于Object Trajectory这一中间接口,Visics由具身世界模型和通用操作模型两部分组成。
具身世界模型负责理解指令,并预演物体接下来应该如何移动、旋转或形变;通用操作模型结合具体机器人的构型,将物体轨迹转化为接触位置、接触力和关节控制信号。
简单来说,前者解决“物体应该发生什么变化”,后者解决“机器人如何完成这一变化”。
发布会现场,搭载Visics大模型的机器人展示了跨本体灵巧手抓取、动态传送带抓取、精细力控操作、打领带和家具拼装等任务,覆盖跨本体操作、动态环境响应、柔性物体处理和复杂长程操作。
其中,家具拼装中,机器人可读取说明书并完成多步骤拼装;当已装部件被人为拆解后,系统能够恢复状态并继续执行。


RoboScience机器科学将Visics的能力概括为三个维度:指导任意机器人、操作任意物体、完成任意任务。现场,公司创始人兼CEO田野也补充了这一能力现阶段的边界。
据其介绍,公司目前已在接近10种真实机器人本体及更多仿真本体上进行验证。在新本体与训练分布差异有限的情况下,模型可以结合URDF文件和机器人说明书实现一定程度的适配;如果本体结构变化较大,仍可能需要重新训练。
相比跨本体和物体操作,任务泛化的难度更高。田野表示,打领带、家具拼装等复杂任务已经完成模型验证,并会持续提升成功率。
03.
预训练押注“视频+仿真”
与这套模型架构相配套的,是RoboScience机器科学对预训练数据路线的选择。
当前具身数据生产主要依赖遥操作、真机示教、穿戴式设备或第一视角采集。这类数据直接对应机器人动作,价值明确,但成本、产能和硬件绑定问题也很突出。
RoboScience机器科学则将预训练数据分为两部分:具身世界模型主要使用互联网视频数据,学习物体交互过程和状态变化;通用操作模型主要使用RoboMirage生成的仿真操作数据,学习接触、受力、摩擦和形变等物理规律。
这套“视频+仿真”路线,试图用互联网视频扩充物体与任务的多样性,再通过仿真操作数据补充视频中缺失的物理交互信息。
公司披露,目前已积累数百万小时操作相关视频数据和数百亿次仿真操作轨迹,2026年目标分别达到上千万小时和1万亿次操作轨迹。企业称,单条数据的获取成本可降至传统方案的1/20至1/200。

这一路线降低了模型预训练对昂贵真机数据的依赖,但互联网视频中的三维信息提取,以及仿真能力向真实环境迁移,仍是其中的关键环节。模型进入实际场景后,机器人作业产生的数据还将回流,用于持续迭代。
04.
先在海量SKU里验证泛化
模型能力最终要放进真实业务流程中检验。
RoboScience机器科学现阶段将商超、零售和电商物流作为重点落地方向。这类场景拥有海量SKU,商品在尺寸、材质、包装和摆放状态上差异明显,同时存在高频、多品类的拣选、补货和整理需求。
对于传统自动化方案而言,物料或工位发生变化,往往需要重新适配。对于主攻物体泛化的Visics,这类场景可以更直接地检验同一套模型处理不同商品的能力。
RoboScience机器科学联合创始人兼执行总裁汪涛表示,公司现阶段将先从物体维度切入,在商超、电商物流等场景推进POC验证,利用真实运行数据持续迭代模型,再逐步扩展任务类型和跨本体部署范围。
在商业化上,RoboScience机器科学计划通过纯软件License或MaaS服务、搭载模型能力的端侧控制器,以及自研机器人本体三种形态对外输出能力。

相比完整铺开产品布局,更值得关注的是模型进入现场后的实际表现。面对大量未见商品,机器人能否保持操作成功率;在连续作业中,执行速度和稳定性是否达到业务要求;发生抓取失败或环境变化后,系统能否及时恢复,这些指标将直接影响后续部署规模。
商超和电商物流既是RoboScience机器科学早期商业化的切入口,也是检验其技术路线的典型场景。Visics所强调的物体泛化能力,最终要在高频、多品类任务中的成功率、效率和稳定性上得到验证。
发表评论 取消回复