用物体轨迹连接认知和执行，RoboScience发布具身大模型Visics

19 阅读 0 评论 0 点赞

6月24日，RoboScience机器科学发布通用具身大模型Visics，并首次完整披露VLOA（
Vision-Language-Object-Action）双引擎架构。

这家成立于2024年的具身智能公司，上月刚完成10亿元A轮融资。其核心团队横跨AI平台、机器人量产、学术研究和产业投资等领域，创始人兼CEO田野曾任苹果AI Platform技术负责人。

发布会最有辨识度的部分，落在VLOA中间的“O”。

RoboScience机器科学将其定义为Object Trajectory，即物体3D点云轨迹。它被放在语言理解与机器人动作之间，作为具身世界模型和通用操作模型的中间接口。

换句话说，模型先回答“物体应该发生什么变化”，再决定机器人该如何移动、在哪里接触、施加多大的力。

01.

先定义物体怎么变化

在常见的机器人学习范式中，动作数据往往与具体硬件绑定。

同样是把一个物体移到指定位置，二指夹爪、五指灵巧手和双臂机器人对应的关节空间、控制参数与接触方式完全不同。模型直接学习“手怎么动”，更换机器人本体后，原有数据和策略的迁移效率可能快速下降。

RoboScience机器科学把被操作物体的状态变化抽取出来。以叠衣服为例，模型关注衣服如何从摊开状态逐步折叠成目标形态；以抓取为例，关注物体如何从初始位置移动到指定位置。至于执行者使用夹爪、三指手还是五指手，由下层模型结合具体本体处理。

这相当于在任务语义和机器人动作之间，建立一套统一的物体轨迹表征。机器人本体、物体属性和任务目标的差异，由此被放进同一个表示空间中处理。

RoboScience机器科学联合创始人兼执行总裁汪涛在现场将Object Trajectory类比为具身智能的“token”。按照他的解释，物体的连续3D点云轨迹可以统一描述刚体、铰链体以及一维、二维、三维可形变物体的位置、姿态与形态变化。

不过，此处的“点云”并不等同于深度相机直接采集的点云数据。

发布会现场，RoboScience机器科学创始人兼CEO田野进一步解释，Object Trajectory是一种更高层的数学表征。深度相机只能观察物体的部分表面，还可能受到遮挡和噪声影响。具身世界模型需要补全不可见区域，生成完整物体的运动轨迹，再交给通用操作模型。

Visics将学习焦点放在被操作物体的状态变化上。这一设计让上层任务表征与具体机器人硬件解耦，为跨视角数据利用以及跨本体训练和部署提供了更大的灵活性。

02.

一个负责预演，一个负责执行

基于Object Trajectory这一中间接口，Visics由具身世界模型和通用操作模型两部分组成。

具身世界模型负责理解指令，并预演物体接下来应该如何移动、旋转或形变；通用操作模型结合具体机器人的构型，将物体轨迹转化为接触位置、接触力和关节控制信号。

简单来说，前者解决“物体应该发生什么变化”，后者解决“机器人如何完成这一变化”。

发布会现场，搭载Visics大模型的机器人展示了跨本体灵巧手抓取、动态传送带抓取、精细力控操作、打领带和家具拼装等任务，覆盖跨本体操作、动态环境响应、柔性物体处理和复杂长程操作。

其中，家具拼装中，机器人可读取说明书并完成多步骤拼装；当已装部件被人为拆解后，系统能够恢复状态并继续执行。

RoboScience机器科学将Visics的能力概括为三个维度：指导任意机器人、操作任意物体、完成任意任务。现场，公司创始人兼CEO田野也补充了这一能力现阶段的边界。

据其介绍，公司目前已在接近10种真实机器人本体及更多仿真本体上进行验证。在新本体与训练分布差异有限的情况下，模型可以结合URDF文件和机器人说明书实现一定程度的适配；如果本体结构变化较大，仍可能需要重新训练。

相比跨本体和物体操作，任务泛化的难度更高。田野表示，打领带、家具拼装等复杂任务已经完成模型验证，并会持续提升成功率。

03.

预训练押注“视频+仿真”

与这套模型架构相配套的，是RoboScience机器科学对预训练数据路线的选择。

当前具身数据生产主要依赖遥操作、真机示教、穿戴式设备或第一视角采集。这类数据直接对应机器人动作，价值明确，但成本、产能和硬件绑定问题也很突出。

RoboScience机器科学则将预训练数据分为两部分：具身世界模型主要使用互联网视频数据，学习物体交互过程和状态变化；通用操作模型主要使用RoboMirage生成的仿真操作数据，学习接触、受力、摩擦和形变等物理规律。

这套“视频+仿真”路线，试图用互联网视频扩充物体与任务的多样性，再通过仿真操作数据补充视频中缺失的物理交互信息。

公司披露，目前已积累数百万小时操作相关视频数据和数百亿次仿真操作轨迹，2026年目标分别达到上千万小时和1万亿次操作轨迹。企业称，单条数据的获取成本可降至传统方案的1/20至1/200。

这一路线降低了模型预训练对昂贵真机数据的依赖，但互联网视频中的三维信息提取，以及仿真能力向真实环境迁移，仍是其中的关键环节。模型进入实际场景后，机器人作业产生的数据还将回流，用于持续迭代。

04.

先在海量SKU里验证泛化

模型能力最终要放进真实业务流程中检验。

RoboScience机器科学现阶段将商超、零售和电商物流作为重点落地方向。这类场景拥有海量SKU，商品在尺寸、材质、包装和摆放状态上差异明显，同时存在高频、多品类的拣选、补货和整理需求。

对于传统自动化方案而言，物料或工位发生变化，往往需要重新适配。对于主攻物体泛化的Visics，这类场景可以更直接地检验同一套模型处理不同商品的能力。

RoboScience机器科学联合创始人兼执行总裁汪涛表示，公司现阶段将先从物体维度切入，在商超、电商物流等场景推进POC验证，利用真实运行数据持续迭代模型，再逐步扩展任务类型和跨本体部署范围。

在商业化上，RoboScience机器科学计划通过纯软件License或MaaS服务、搭载模型能力的端侧控制器，以及自研机器人本体三种形态对外输出能力。

相比完整铺开产品布局，更值得关注的是模型进入现场后的实际表现。面对大量未见商品，机器人能否保持操作成功率；在连续作业中，执行速度和稳定性是否达到业务要求；发生抓取失败或环境变化后，系统能否及时恢复，这些指标将直接影响后续部署规模。

商超和电商物流既是RoboScience机器科学早期商业化的切入口，也是检验其技术路线的典型场景。Visics所强调的物体泛化能力，最终要在高频、多品类任务中的成功率、效率和稳定性上得到验证。

本文分类：行业新闻
本文标签：无
浏览次数：19 次浏览
发布日期：2026-06-29 09:24:49
本文链接：https://www.bjs.xn--fiqs8s/web/index.php/cms/hangyexinwen/4558.html

上一篇 > AI写小说卷飞了：GitHub上这10个开源项目，正在颠覆网文创作！
下一篇 > OpenClaw官方技能市场惊现“冒名顶替”项目

用物体轨迹连接认知和执行，RoboScience发布具身大模型Visics

评论列表共有 0 条评论

发表评论取消回复

用物体轨迹连接认知和执行，RoboScience发布具身大模型Visics

曹和平

李平

童庆禧

曹思未

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复