编者按

工业和信息化部人工智能标准化技术委员会(MIIT/TC1)按照《国家人工智能产业综合标准化体系建设指南(2024版)》制定了2025年立项指南和工作计划,凝练形成大模型、软硬件协同、工程化、智能体、具身智能、人形机器人、高质量数据集、应用成熟度、人工智能安全、产业界定及测算十个重点方向。MIIT/TC1将陆续对人工智能重点标准进行宣介,本期介绍人工智能软硬件协同标准。

 

我国人工智能软硬件生态面临的主要问题

现阶段,我国人工智能智算系统正处于从“可用”向“好用”转变的关键阶段,软硬件协同重要性凸显,国产软硬件生态建设面临如下挑战:

 

软硬件生态“小、散、弱”,供给侧缺乏统一适配规范。我国芯片硬件、框架软件与模型算法之间协同不足,直接影响模型应用部署及技术创新迭代。一方面,由于国内厂商硬件结构差异很大,算子支持类型和程度不统一,导致大模型在国产软硬件上适配程度层次不齐,难以快速产业应用。另一方面,算法开发主体无法充分利用硬件架构潜能进行模型开发优化,造成算力损失,一定程度上制约了模型性能表现提升。亟需通过构建统一的适配方法及能力要求,引导厂商技术研发方向,提升软硬件协同优化水平,实现模型在国产系统的快速迁移适配。软硬件产品多样,需求方技术选型难。大模型技术落地应用需求激增,芯片、服务器、一体机、智算集群等产品加速模型适配,但在实际部署过程中,往往出现模型准确率低、延迟高、无法支持多并发请求等现象。传统硬件评估方法仅聚焦芯片算力,忽略框架、服务器、网络等环节协同对系统性能的影响因素,难以有效支持面向实际场景的需求方技术选型,导致算力设施建设门槛高、能力差异大等问题,阻碍模型产业化应用进程。

 

人工智能软硬件协同重要标准列表

目前已围绕集群系统、算子能力、开发框架、适配评估等方向开展了软硬件协同系列标准研制,未来将持续完善标准体系,加速我国人工智能软硬件生态建设。

 

 

重点标准:《人工智能基础支撑 软硬件协同 大模型训练及推理集群系统能力要求》(2024-1323T-YD)

当前大模型技术快速迭代演进,不同类型、规模的模型在实际应用中对训练及推理集群系统的需求存在差异,传统评估方法仅聚焦单芯片算力评价,难以反映真实场景中系统性能表现与软硬协同优化水平。

 

标准将大模型训练及推理任务对集群的能力要求分为关键组件技术能力和系统级能力要求两大部分,满足不同维度的评估需求。

 

关键组件能力:包括通用计算单元、加速计算单元、存储单元、网络单元等硬件单元,以及资源管理软件、深度学习开发框架等软件工具,在标准中明确了各组件支持大模型训推所需满足的技术规格与功能要求,保证构成集群系统的关键组件正常运行。

 

系统级能力:围绕训练和推理任务,对集群所需支持的任务内容、功能要求、性能指标及测试方法进行了规范,同时提供了典型模型负载任务表与性能评估指标计算方法,为标准实际应用与执行提供实操参考。

 

大模型训练及推理集群系统能力要求框架图

 

标准起草单位覆盖芯片、服务器、框架软件、行业应用等产业链各环节,充分结合京能数产、上海仪电、中国电信等算力基础设施建设方的大模型训推集群建设实践经验,未来可广泛应用于人工智能基础设施建设、大模型技术研发、算力服务平台运营等场景,为需求侧的技术选型、项目验收以及供给侧的产品研发提供重要参考,助力构建高效、稳定、可扩展的大模型产业生态。

 

标准应用情况

目前人工智能软硬件协同创新与适配验证中心已依据软硬件协同系列标准以及人工智能软硬件基准体系工具AISHPerf(Performance Benchmarks of Artificial Intelligence Software and Hardware)开展标准贯标工作,为行业需求侧用户开展国产算力选型提供依据,也为芯片、服务器、框架软件等厂商的产品研发和性能优化提供指引。已在包括中国电信、华为等在内的30余家供给侧单位进行了百余次适配验证,同时也支撑了多家企业开展DeepSeek、文心等国产大模型的算力选型工作。

 

下一步,MIIT/TC1 WG3智算系统组将持续基于人工智能软硬件技术发展趋势和行业落地应用需求完善人工智能智算系统标准体系,为人工智能产业发展夯实基础底座。诚邀各人工智能企业和行业专家共同参与。

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部