首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们
控制台

可信AI人工智能数据集质量评估体系2.0

发布日期:2026-04-16 来源:百度百科作者:百度百科

基本含义

  “可信AI”人工智能数据集质量评估体系2.0是由中国信息通信研究院(中国信通院)发布的人工智能数据集质量评估标准体系。

  该体系旨在推动形成“高质量数据集供给—高效模型训练—可靠场景应用”的闭环生态。

  其核心为“2+2+1+N”的数据集质量评估能力体系。

  其中,“2”指2项质量评估标准:人工智能数据集质量评估国家标准+行业标准;“2”指2套数据集质量指标体系:通用基础质量体系+行业专属质量体系;“1”指1个质量评估工具平台,采用分层随机抽样+自动化评估+人工辅助校核的评估方式;“N”指N项服务方案,针对不同类型数据集提供定制化质量评估服务。

发展历程

  该体系由中国信息通信研究院主导制定。2024年12月,中国信通院正式发布“可信AI”人工智能数据集质量评估体系1.0。2025年12月9日,中国信通院正式升级发布“可信AI”人工智能数据集质量评估体系2.0,打造了“2+2+1+N”的数据集质量评估能力体系。2026年2月6日,在沈阳召开的“2026年中国信通院人工智能高质量数据集炼金工坊生态行暨沈阳市数据标注产业培训大会”上,中国信通院人工智能研究所工程师燕江依作了关于该体系的专题报告。2026年3月23日,在中国人工智能产业发展联盟(AIIA)数据委员会2026年第一次全体会议上,该体系2.0作为关键成果被正式发布。2026年3月25日,在该会议上,委员会副组长、中国信通院人工智能研究所平台部高级工程师樊威详细解读了该体系2.0。体系升级旨在推动人工智能数据标准建设与产业应用深度融合。

基本特征

  “可信AI人工智能数据集质量评估体系2.0”的核心架构可概括为“2+2+1+N”的数据集质量评估能力体系。该体系包含两项质量评估标准,即人工智能数据集质量评估国家标准与行业标准。中国信通院联合业界核心支撑编制国家标准《高质量数据集 质量评测规范》,并牵头编制并已发布行业标准《面向人工智能的数据集质量通用评估方法 总体要求》(YD/T 6486-2025)。

  该体系包含两套数据集质量指标体系,包括通用基础质量指标体系和行业专属质量指标体系。通用基础质量指标体系主要由说明文档(7大类)、前置数据质量(9大类)、模型应用(4大类)三大核心维度指标组成;行业专属质量体系则针对不同行业场景细化和开发专属评估规则,包括行业场景分类、质量指标设计、质量评估、问题分析与优化四大方面。

  该体系包含一个质量评估工具平台,采用“分层随机抽样+自动化评估+人工辅助校核”的评估方式,累计扩展开发100余个质量评估量化算子,自动化评估率可达到80%以上,实现前置数据质量评估指标的有效工程化落地;同时,基于中国信通院“方升”大模型基准测试体系,初步搭建了数据质量与模型性能反馈验证方法,实现基于不同模型性能指标组合的数据集质量反馈方法落地。

  该体系包含N项服务方案,可针对不同类型数据集提供定制化质量评估服务,通过全量指标迭代、专属指标筛选、侧重权重设计、算子规则匹配以及安全方案对齐实现不同行业、不同类型数据集定制化测试服务方案。服务覆盖文本、图像、音频、视频、多模态、结构化数据、传感器数据、时间序列等多种数据模态,应用于预训练、监督微调、强化对齐、智能体训练、模型评测等多个训练阶段。

应用

  该服务提供了“以评促建”服务,并支撑了公共数据质量评估工作。

  该服务在部分地区的实践中,参与了人工智能高质量数据集质量评估公共服务能力建设。例如,已支持保定、东莞、兰州新区、沈阳、苏州、广州等地建设人工智能高质量数据集质量评估公共服务能力。人工智能数据集质量评估服务协同平台服务于重点行业领域高质量数据集建设与行业垂类模型训练。例如,中国中车于2025年通过了相关评估。此外,该体系已为招商局集团、中国建筑等10余家重点行业央企与国家呼吸医学中心等国家级实验室提供“以评促建”服务。中国信通院人工智能数据处理和质量测评中心落地河北保定,其评测服务体系覆盖从源数据到模型应用的环节。

影响

  可信AI人工智能数据集质量评估体系2.0的发布与实施,旨在凝聚行业共识,加快数据标准建设、质量评估与产业场景应用深度融合。其应用实践受到行业关注,例如,兰州新区商投集团数投公司因应用该体系相关实践,曾入选相关案例。此外,该体系还支持了保定、东莞、兰州新区、沈阳、苏州、广州等多地建设人工智能高质量数据集质量评估公共服务能力。

  该体系通过提供质量评估服务,已为招商局集团、中国建筑、中国中车、航天科技、东方航空等10余家央企,以及国家呼吸医学中心等国家重点实验室,海天瑞声、联著科技等数据龙头企业提供“以评促建”服务,并支撑完成100余次公共数据质量评估工作,支撑了重点行业数据集建设与模型训练。

  总体而言,可信AI人工智能数据集质量评估体系2.0有助于形成“高质量数据集供给—高效模型训练—可靠场景应用”的闭环生态,其发展反映了人工智能数据集质量评估领域的三大核心趋势:从传统大数据质量转向AI原生数据质量;从通用基础质量指标转向行业专属场景质量指标;从静态评估转向动态闭环优化。

评估实践与趋势

  经过测试发现,高质量数据集面临内容稠密性、领域相关性、领域准确性、样本唯一性、内容准确性等核心问题。

  人工智能数据集质量评估呈现三个发展趋势,一是从传统大数据质量转向AI原生数据质量,二是从通用基础质量指标转向行业专属场景质量指标,三是从静态评估转向动态闭环优化。

  中国信通院通过工业和信息化部人工智能标准化技术委员会数据组(MIIT/TC1 WG2)参与人工智能数据集标准的相关工作。2025年,该机构进行了第四轮可信AI人工智能数据集质量评估。

本文转载自百度百科, 作者:百度百科, 原文标题:《 可信AI人工智能数据集质量评估体系2.0 》, 原文链接: https://baike.baidu.com/item/可信AI人工智能数据集质量评估体系2.0/67547899。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐