一年开放不低于100个高价值真实应用场景,单个数据采集项目最高支持100万元,分类分层推进不少于30项标准制修订——2026年6月6日,江苏省工信厅一纸《加快具身智能机器人数据集建设工作方案》,在人工智能与机器人产业圈炸开了锅。
这不是一次普通的政策发布。如果你对人形机器人行业的现状稍有了解,就会立刻意识到:江苏省正在做一件其他省市想做却迟迟没有落地的硬事——让工业制造、民生服务、特种环境里的真实场景“长出”机器人所需要的“数据粮食”。
为什么这件事如此迫切?一组数字足以说明问题。
大语言模型靠“吃”互联网上的万亿级文字变聪明,可机器人要的不是文字和图片,而是“看-动-感觉”的物理交互数据。每一毫秒的视觉画面、关节电流、力矩反馈,必须精确同步才算一条有效数据。2025年,全行业沉淀的有效数据不超过3万小时,而训练一个具备通用泛化能力的具身模型,至少需要千万小时级别——缺口大得令人窒息。更残酷的是,高质量的真实数据采集极其昂贵,谷歌曾用13台机器人耗时17个月,才攒了13万条数据。2025年地方采购数采机器人订单金额超10亿元,截至年底全国已有超过50个省市级的数采中心处于使用或规划建设中。
这就是数据“军备竞赛”的真实战场。
而江苏这次下场的姿势,相当值得玩味。
首先是“场景为王”的务实打法。方案明确要求每年开放低敏感、高价值真实应用场景不低于100个,引导机器人企业与下游用户组建联合体,直接进入工业制造、民生服务、特种环境等领域开展数据采集。最高100万元的项目支持,说白了就是政府掏钱,替企业降低采集成本门槛。这意味着江苏数以万计的工厂车间、物流仓库、养老机构、商超零售,都可能成为机器人的“实训基地”——真正的物理交互数据,将从这些真实的生产一线源源不断地被记录和转化。
其次是标准化布局的深谋远虑。方案提出围绕数据采集、预处理、标注、质量评价等重点环节,分类分层推进不少于30项标准制修订。过去各家机器人厂商的数据格式互不兼容,传感器的接口千差万别,造成了海量的“数据孤岛”。全国政协委员贺晗曾直言,研究机构和企业的数据采集平台、传感器接口、数据格式互不统一,缺乏具有行业共识的高质量开源数据集。江苏正在试图为整个行业建立一套通用的“数据普通话”——谁掌握了标准,谁就掌握了未来数据流通和交易的“定价权”。
事实上,江苏在这场数据竞赛中早有铺垫。今年1月,江苏省数据交易所完成了全国首例具身智能数据集的场内交易,涵盖2.5万条结构化数据,覆盖办公、商超、餐饮、家政四大场景。这次方案又明确提出支持省数交所探索规模化托管数据采集训练中心的数据。这说明江苏打的是组合拳——既有真金白银的采集补贴开路,又有数据交易所的流通平台托底,还有标准化体系来规范秩序,一步到位勾画出一个“采-存-流-用”的数据全产业链闭环。
如果把视线放大到全国格局,这场暗战的态势就更加清晰。
北京已经建成近万平米的中试验证工厂,上海训练场部署了102台异构人形机器人、每日生成5万条数据,河南分训练场聚焦12大传统产业。由工信部指导的“具身智能开源数据集社区”也已启动建设,宇树科技、智元机器人等头部企业纷纷宣布开源数据集。这不是某一个省份的单打独斗,而是国家层面的战略合围。
但江苏的策略有它独到之处——不追求最炫酷的实验室表演,而是聚焦于制造业大省的深厚底子,用真实的生产场景驱动数据的“活水”。这种从产业端反向定义数据需求的思路,恰恰是突破具身智能“从实验室炫技到工厂干活”这道坎的关键所在。
很多人误以为机器人产业的竞争就是看谁的电机转得最快、谁的关节最灵活,但2026年的行业已经达成了共识:真正的命门,是数据。
大语言模型时代,中文数据先天不足让中国企业在技术路线上始终被掣肘。如今具身智能赛道才刚刚起跑,谁先建立起规模化、高质量的数据资产,谁就掌握了定义下一代通用机器人标准的权力。江苏这波操作背后隐藏的潜台词,其实非常直白:与其等他国巨头建好标准后我们再去适配,不如现在就亲自上场参与规则制定。
100万元的数据采集补贴在今天看来也许不算一个大数目,但它撬动的是从生产线、数据标准到核心算法的自主权争夺。这条隐形的起跑线上,押注的是未来十年全球具身智能产业的话语权归属。
比赛才刚刚开始,而江苏已经下场了。
发表评论 取消回复