智算多多



在人工智能产业的发展逻辑中,算法、算力、数据被认为是三大核心要素,而数据标注则是将海量原始数据转化为可训练数据的关键环节。如果说算法是人工智能的“大脑”、算力是“心脏”,那么高质量标注数据就是维系这一切运转的“血液”。
从人工智能的发展历程来看,数据标注的产业需求与AI技术的演进深度耦合。早期的专家系统依赖人工编写规则,对标注数据的需求相对有限。进入深度学习时代后,以神经网络为代表的数据驱动模型对标注数据的需求呈现指数级增长——模型的性能不再仅取决于算法架构,更取决于训练数据的规模、质量和多样性。ImageNet是一个大型图像数据库,广泛用于计算机视觉领域的图像分类、目标检测和图像分割等任务。它被认为是计算机视觉领域最具挑战性、最重要的标准数据集之一。ImageNet作为一个庞大的数据集,包含了大量标注良好的图像,并且被广泛应用于深度学习算法的训练和评估。
随着大语言模型的兴起,数据标注的内涵进一步拓展。大模型训练不仅需要海量的通用文本数据,还需要高质量的人类反馈数据(RLHF,基于人类反馈的强化学习)来对齐模型输出与人类偏好。标注工作的重心从简单的分类、框选转向更复杂的排序、写作、逻辑推理和安全性评估,对标注人员的专业能力要求显著提高。可以说,每一次人工智能技术的代际跃迁,都伴随着数据标注产业的形态重构和价值重估。
数据标注作为人工智能产业链的关键基础环节,其产业发展具有深远的战略意义和广泛的社会经济影响。培育壮大数据标注产业对于提升数据供给质量、推动人工智能创新发展具有重要支撑作用。近年来,受益于国家政策的有力支持以及资本与人才的双重驱动,我国人工智能产业呈现蓬勃发展态势,已稳步迈入世界前列,庞大的产业规模为数据标注创造了持续增长的需求空间。工信部数据统计,2025年中国人工智能产业规模突破12000亿元。
2020年2月,数据标注员作为人工智能训练师的一个工种,被正式纳入国家职业分类目录。短短几年,这个劳动力需求量巨大的行业,迅速在一些中小城市落地生根。2024年5月24日下午,国家数据局党组书记、局长刘烈宏在第七届数字中国峰会主论坛上发布了承担数据标注基地建设任务的城市名单,分别是:四川省成都市、辽宁省沈阳市、安徽省合肥市、湖南省长沙市、海南省海口市、河北省保定市、山西省大同市。七个城市承接了数据标注基地建设任务书。2024年12月,国家发展改革委、国家数据局等四部门联合印发《关于促进数据标注产业高质量发展的实施意见》,提出到2027年产业规模年均复合增长率超过20%的目标。
2025年3月,七个数据标注基地数据标注总规模达17282TB,形成医疗、工业、教育等行业高质量数据集335个,赋能121个国产人工智能大模型研发,引进和培育标注企业223家,标注从业人员达5.8万人,带动相关产值超83亿元。2025年7月,北京(国际)数据标注基地正式启动。2025年12月17日,河北省第一届人工智能数据标注职工职业技能竞赛决赛在保定举办,来自全省的300名晋级选手进行了文本、图片、3D点云三个赛道的同台竞技,旨在破解数据标注产业瓶颈,搭建人才桥梁,为产业高质量发展注入强劲动力。2025年12月24日,江西省人民政府印发《江西省“人工智能+”行动方案》,其中提出支持有基础的地方加强企业培育和项目招引,承接核心城市外溢标注业务,争取纳入全国数据标注试点;鼓励标注企业加强智能化处理工具和平台研发;培育壮大数据处理和数据服务产业。2026年3月14日,新疆成立“人工智能+”数据标注行业产教融合共同体,推动区域数字产业升级。数据标注产业正从劳动密集型向知识密集型或劳动与技术密集型并重转型,创造了大量就业岗位。
近年来,我国密集出台了一系列政策,持续完善数据标注产业的顶层设计与实施路径。2022年1月,国务院在《“十四五”数字经济发展规划》中首次明确提出培育壮大数据服务产业,将数据标注、清洗、脱敏等环节纳入国家战略。2023年7月,网信办等七部门联合发布《生成式人工智能服务管理暂行办法》,对数据标注的规则制定、质量评估和人员培训提出规范性要求,为生成式AI的合规发展奠定基础。2024年4月,国家数据局等十七部门印发《“数据要素×”三年行动计划(2024—2026年)》,强调健全数据采集、管理等标准体系,协同推进行业标准制定。
进入2025年,政策支持力度进一步加码。1月,国家发展改革委、国家数据局等四部门联合发布《关于促进数据标注产业高质量发展的实施意见》,明确提出到2027年产业年均复合增长率超过20%,培育一批科技型数据标注企业,建设特色鲜明的数据标注基地,构建完善的产业生态。8月,国务院在《关于深入实施“人工智能+”行动的意见》中,鼓励发展数据标注、数据合成等技术,加强数据供给激励,培育壮大数据处理和数据服务产业。2026年2月,河北省四部门联合印发《河北省“人工智能+交通运输”创新应用实施意见》,首次在细分行业层面部署数据标注应用,推动交通领域数据治理与标注。政策体系从宏观规划到行业落地逐步完善,为我国数据标注产业的高质量发展提供了坚实保障。
数据标注是指借助特定软件标注工具以人工的方式将图片、语音、文本、视频等数据内容打上特征标签,使计算机通过大量学习这些带有特征标签的数据,最终具备自主识别特征的一种行为。数据标注技术作为提供训练数据的必经环节,促进了人工智能的快速发展。数据标注按照数据类型可以分为图像标注、文本标注及语音标注。
数据标注行业产业链上游为人力供给和设备供给,包括数据标注员、计算机硬件、基础软件等。上游市场的正向发展有利于数据标注行业在业务的深度和业务能力的快速提升。从人力供给看,数据标注员作为人工智能训练师的重要工种,其职业化水平持续提升,分布在各地的标注基地、标注工作室及众包平台构成了庞大的人力资源网络;从设备供给看,高性能计算服务器、图形处理器、存储设备、标注终端等硬件设备,以及操作系统、数据库、标注工具软件等基础软件,为标注作业提供了基础支撑,主要硬件供应商包括浪潮信息、中科曙光、联想等,软件及标注工具则涵盖海天瑞声自研平台、倍赛数据标注系统、京东众智平台等。
产业链中游为数据标注厂商,包括AI基础数据服务商,如海天瑞声、标贝科技、星尘数据等。处于中游的AI基础数据服务商主要进行数据的采集与标注,面向AI的数据治理平台服务商则使用数据治理的各组件管治多源异构数据,使其形成数据资产,提高数据质量。二者处理后的数据可直接提供给下游用于AI训练,从而加速AI落地。
产业链下游则是人工智能的应用,涉及智慧政务、金融、工业、自动驾驶等领域。下游市场的持续扩张有利于数据标注行业新增市场空间的发展。智慧政务领域的需求方包括各级政府及公共服务机构,用于城市治理、公共安全等场景的模型训练;智慧金融领域的主要需求方为银行、保险、证券等金融机构,用于风控、客服、营销等AI应用;工业领域以汽车制造、电子信息、高端装备等企业为代表,在工业质检、预测性维护等场景产生大量标注需求;自动驾驶领域的需求方包括整车厂、自动驾驶方案商、出行服务平台等,对2D图像、3D点云、高精地图等数据的标注需求尤为旺盛;智慧医疗领域的需求方涵盖医院、医学影像中心、医疗器械企业等,用于医学影像分析、辅助诊断等模型的训练。多元化的下游应用格局为数据标注行业提供了持续增长的需求空间。
根据智研咨询发布的《中国数据标注行业市场供需形势分析及投资前景评估报告》指出:数据标注是提升数据供给质量的关键环节,是提升人工智能产业竞争力的先手棋;是充分释放数据要素价值的前提条件,是数据要素价值化的必选项;是缓解就业压力,促进人才培养与产业发展的良性互动的有效路径。近年来,美国、德国、英国、印度等国家和地区纷纷将数据标注产业视为数字经济发展的基础性、战略性产业进行布局。
从国内市场看,受政策引导与市场需求双重推动,我国数据标注产业已进入产业爆发阶段。我国虽为数据资源大国,但不是数据资源强国。2024年中国数据留存率为5.1%,远低于发达国家水平。数据质量低,大量数据被浪费,成为制约我国数据资源价值发挥的瓶颈。数据标注作为挖掘数据要素价值、提升数据供给质量的核心环节,在数据要素价值化和赋能实体经济数字化转型过程中发挥着不可替代的关键作用。在人工智能技术加速渗透的驱动下,我国数据标注产业迅速成长,市场规模持续扩大,应用场景日益丰富。据统计,中国数据标注行业市场规模从2016年的11.21亿元增长至2025年的117.53亿元,年复合增长率为29.8%。
从细分市场规模来看,数据标注主要分为数据资源定制服务、数据集产品和其他数据资源应用服务三大类,其中数据资源定制服务占据主导地位,占比超过八成。2025年中国数据资源定制服务市场规模为99.58亿元,同比增长29.6%,占比84.73%;数据集产品市场规模为16.12亿元,同比增长30.4%,占比13.71%;其他数据资源应用服务市场规模为1.83亿元,同比增长40%,占比1.56%。
传统的数据标注高度依赖人工,不仅效率低下、成本高昂,而且难以应对海量数据的标注需求。自动化标注技术通过预训练模型对原始数据进行初步处理,再由人工进行校验和修正,实现人机协同的标注模式。这种模式大幅提升了标注效率,降低了人工成本,同时对标注人员的技能要求从简单的操作执行转向质量控制、异常识别和复杂判断。在图像领域,模型预标注可以实现目标的自动框选、轮廓勾画和跟踪,人工只需对模型输出进行审核和调整,可将标注效率提升数倍。在文本领域,大模型可以通过少样本学习快速完成实体识别和关系抽取任务,人工重点关注模型不确定的样本。在点云领域,基于深度学习的自动分割算法可以大幅减少人工标注每个点的工作量。自动化标注的推广对数据标注服务商的技术能力提出了更高要求。服务商需要建立“算法+人工”双轮驱动的服务体系,具备模型训练、平台开发和数据处理能力。拥有自研标注平台、算法模型和工具链的企业,能够在效率和成本上形成差异化优势。同时,自动化标注也改变了行业的价值分配——高附加值的人工干预和质量控制环节获得更高溢价,而简单的重复性标注工作价值下降。
大语言模型的爆发对数据标注产业产生了深远影响。与传统的判别式AI模型不同,大模型训练对标注数据的需求呈现出新的特征。首先是对高质量数据的需求更加突出。大模型遵循“规模法则”,训练数据的规模和质量直接影响模型性能。标注数据不再仅仅是特征工程的基础,而是模型能力的直接源泉。指令微调、人类反馈强化学习等训练方式对数据的准确性、多样性、覆盖广度提出了更高要求。其次是标注任务复杂度显著提升。传统标注任务多为分类、框选、转写等客观性任务,标注结果的正确性相对明确。大模型训练则引入了大量主观性标注任务,如模型回答的排序、改写、偏好判断等,这些任务往往没有绝对的标准答案,对标注人员的理解能力、判断力、专业知识和逻辑思维要求极高。标注人员需要理解复杂语境、识别细微差异、判断内容安全性,工作性质从“重复操作”向“内容评测”转变。再次是标注与算法迭代的耦合度加深。在大模型开发过程中,数据标注不再是模型训练前的独立工序,而是与模型训练、评估、调优形成闭环迭代。标注团队需要根据模型表现快速调整标注策略,提供针对性数据,参与模型优化过程。这种深度的耦合要求标注服务商具备更强的业务理解能力和敏捷交付能力。
随着人工智能向各行各业深度渗透,数据标注呈现出显著的垂直化特征。不同行业对标注的规范、标准和重点各不相同,通用型标注服务难以满足专业场景的精细化需求。在自动驾驶领域,数据标注需要紧密结合感知算法架构和传感器配置。标注内容从静态的2D框选发展到动态的3D点云追踪、场景理解、驾驶行为标注,对标注人员需要理解车辆运动学、传感器融合等专业知识。大型自动驾驶企业往往与服务商共建标注标准,形成定制化标注规范。在医疗健康领域,医学影像标注需要标注人员具备解剖学、病理学基础,能够准确识别病灶位置、形态和特征。医疗数据标注涉及患者隐私保护,对数据脱敏、传输、存储的安全合规要求极高。这类高门槛标注服务的单价显著高于通用标注。在智慧金融领域,文本标注需要理解复杂的金融术语、业务逻辑和合规要求;在工业质检领域,缺陷标注需要熟悉产品工艺和质量标准。垂直行业标注能力的构建需要长期的行业知识积累和专业人才培养,成为数据标注服务商建立竞争壁垒的重要方向。
技术平台能力是数据标注企业构建核心竞争力的关键要素。随着人工智能技术的快速发展,传统纯人工标注模式在效率、成本和一致性方面逐渐显露局限,具备自研标注平台和自动化标注能力的企业能够在竞争中占据主动。领先企业通过开发集数据管理、任务分发、标注工具、质量控制于一体的综合平台,实现标注流程的数字化和标准化管理。更重要的是,将预训练模型融入标注流程,实现“机器预标注、人工校验修正”的人机协同模式,可显著提升标注效率、降低单位成本。在图像领域,模型可完成目标自动框选和轮廓勾画;在点云领域,自动分割算法可大幅减少人工标注工作量;在文本领域,大模型可通过少样本学习完成实体识别。具备核心算法能力和平台工具链的企业,能够在交付效率、成本控制和规模化服务能力上形成差异化优势,获得更高的盈利空间。
垂直行业的深度理解能力正成为数据标注企业建立竞争壁垒的重要方向。通用标注服务技术门槛低、竞争激烈、利润空间有限,而具备特定行业知识、了解业务场景的专业标注服务商能够提供更高价值的服务。在自动驾驶领域,标注人员需要理解感知算法对标注颗粒度的要求,能够处理激光雷达点云、多传感器融合数据,标注标准需与算法架构紧密耦合;在医疗健康领域,医学影像标注需要标注人员具备解剖学、病理学基础,能够准确识别病灶位置、形态和特征,同时需严格遵循患者隐私保护规范;在智慧金融领域,文本标注需要理解复杂的金融术语、业务逻辑和合规要求。垂直能力的构建需要长期的行业知识积累和专业人才培养,包括与行业客户共建标注规范、建立领域专家团队、开发专用标注工具等。一旦形成,这种专业壁垒难以被通用服务商在短期内突破。
规模化运营能力是数据标注企业承接大型项目、实现稳定交付的基础保障。大型科技公司、自动驾驶企业、AI算法厂商往往需要大规模、高标准的标注数据集,对服务商的产能弹性、人员规模、交付周期有较高要求。具备规模化运营能力的企业通过建立覆盖多地的标注基地网络、构建稳定的人员招聘与培训体系、采用模块化项目管理流程,形成可复制的交付能力。同时,成本控制能力直接影响企业的盈利能力和市场竞争力,领先企业通过标注基地向中西部劳动力资源丰富地区布局、开发自动化标注工具降低人工依赖、优化管理流程提升人效、建立众包平台灵活调配产能等方式,在保证质量的前提下持续优化成本结构。规模化运营与成本控制的结合,使头部企业能够承接大型项目的同时保持健康的盈利水平,而中小企业在成本敏感型项目中面临较大压力。
数据标注行业正加速摆脱传统纯人工标注的作业模式,向“机器预标注、人工校验修正”的人机协同智能标注演进。预训练模型和自动化标注工具能够对图像、文本、点云等数据进行初步处理,完成目标检测、实体识别、语义分割等基础标注任务,人工审核环节则聚焦于复杂边界、模糊区域和异常情况的精准处理。这种模式转变不仅显著提升了标注效率和一致性,更重要的是改变了标注人员的角色定位——从重复性操作的执行者转向质量控制、异常识别和复杂判断的专业技术岗位,对标注人员的技能要求从简单操作升级为算法理解与质量评估能力。
数据标注服务正告别“一套标准适配所有场景”的通用模式,转向面向垂直行业的深度定制化发展。不同行业对标注的规范、标准和颗粒度差异显著,自动驾驶领域需要精细化的3D点云追踪和驾驶场景理解,医疗领域要求标注人员具备解剖学知识以准确识别病灶特征,金融领域则需要标注团队理解复杂的业务逻辑和合规要求。这种深度定制化使标注服务商从单纯的外包方转型为行业知识伙伴,通过与客户共建标注规范、开发专用工具、培养领域专家,在特定垂直领域构建起难以替代的专业竞争壁垒。
数据标注企业的业务边界正在从单一的数据加工环节向数据全价值链运营拓展,从“数据加工者”升级为“数据价值运营者”。领先的服务商开始介入客户数据资产管理的更前端,参与数据采集方案设计、数据治理体系搭建,同时向后端延伸至模型训练支撑、效果评估反馈、迭代优化建议,形成从数据到模型再到应用的闭环服务能力。这种延伸使标注企业深度嵌入客户的AI研发流程,合作关系从项目外包升级为战略协同,通过深度绑定核心客户、分享模型迭代价值,实现从低附加值加工向高附加值服务的价值跃迁。