首页
产品服务
模型广场
Token工厂
算力市场算力商情行业资讯
注册

世界数据组织在京成立同一天,杭州高端数据标注基地揭牌

发布日期:2026-04-06 来源:杭州市上城区人民政府网站作者:杭州市上城区人民政府网站

世界数据组织在京成立同一天,杭州高端数据标注基地揭牌

  3月30日,世界数据组织在北京正式成立,全球数据治理正迈向制度协同的新阶段。

  同一天,杭州全力建设人工智能创新发展第一城,又有龙头企业入局:杭州高端数据标注基地揭牌,由火山引擎与杭州合作共建。

  在人工智能时代,数据是最核心的生产要素。数据产业的高质量发展,离不开“链主”企业的引领和全生态的协同。那么,当“链主”落子,杭州将如何借势起笔?

高端数据标注是什么?

  什么是数据标注?翻开释义——数据标注是指对原始数据(包括文本、图像、语音、视频等形式)进行加工、整理、标记或分类,使其转化为结构化数据,从而为机器学习模型提供可识别的特征与训练样本的过程。

  简单来说,数据标注就是给原始数据“打标签”,让机器学习模型能看懂这些数据是什么。例如,给出一段语音,把录音转写成文字,并标出“男声”“嘈杂环境”,这就是语音标注;给出一张图片,在图片里圈出“这是一只猫”,框出“那是一条狗”,这就是图像标注。

  高端数据标注,则是常规数据标注的“进阶版”。它通常面向自动驾驶、具身智能、智慧医疗、工业AI等高价值的人工智能场景,不仅要“识别是什么”,更要“理解是什么关系、处于什么状态、将如何演变”。

  例如,在自动驾驶领域需区分“可行驶区域”与“潜在风险物”;在医疗领域需依据影像学知识对病灶进行分级与三维重建;在工业质检领域需依据工艺标准判定缺陷类型与等级……这也要求标注员具备垂直领域专业知识,以推动AI从“感知智能”向“决策智能”跨越。

数据标注有多重要?它被认为是“人工智能的基石”,直接决定了人工智能大模型的上限,被广泛视为人工智能产业化落地的重要支撑要素。国家发展改革委等部门出台了《关于促进数据标注产业高质量发展的实施意见》,其中提到“支持建设集数据、模型、工具、场景为一体的数据标注创新平台,推动数据标注技术融合创新”。

  杭州要做的,正是这件事。

“链主”为何来杭州?

  浙江是国家“数据二十条”明确的先行先试省份,省会城市杭州一直在探索、鼓励数据资源化、价值化转化。2024年,“中国数谷”入选国家数字经济创新发展试验区建设案例。在建设“中国数谷”的过程中,杭州还专门拿出真金白银,支持企业和机构通过杭州数据开放平台向社会提供训练、验证、测试、语料等数据集。

  眼下,杭州正在冲刺“全国人工智能创新发展第一城”。在这场关乎未来产业主导权的竞速中,数据不再是附属资源,而是核心生产要素。杭州有个“小目标”,争取在年底前建成100个具有一定规模的高质量数据集,服务人工智能模型训练10个以上。

  再看项目落户的上城。上城正在全力建设中央创新区,需要数据这一底层要素的强有力支撑。目前全区已集聚一定规模的数据企业约500家,覆盖数据资源、技术、服务、应用、安全及基础设施等六大领域,形成完整产业链,数据产业年均增长率超过15%。

  这也能够解释,火山引擎作为字节跳动旗下的全栈云技术服务平台,首次深度布局浙江市场,就把首家高端数据标注基地放在了杭州,放在了上城。

  此次上城和火山引擎共建杭州高端数据标注基地,定位为国内领先的高质量数据供给枢纽、数据标注技术创新试点和产业协同赋能平台,将聚焦多模态数据标注等领域,打造智能化、专业化、规范化的标注产业标杆。

  基地功能将涵盖三大方面。一是高质量数据加工,聚焦文本、图像、语音等多模态数据,开展精准标注、质量校验等服务,保障数据供给质量;二是数据技术创新发展,依托产学研协作,推动标注工具智能化升级与关键技术攻关;三是产业人才培育,搭建实训平台,为产业输送专业标注人才。

  高质量数据集是核心。目前,上城已发布102个“人工智能+”机会场景,未来基地将聚焦智能驾驶、生物医药、金融科技、数智时尚等特色领域,开发行业专属高质量数据集。

“我们的智能标注工具集成了AI辅助能力,可将标注效率提升60%以上。更重要的是,我们已积累了超过8000个成品高质量数据集,覆盖45个数据方向和50余种语种。这些数据集就像‘AI燃料’,能够直接为企业的模型训练和应用开发提供高价值的‘弹药’。”火山引擎数智平台解决方案总经理萧然说。

  这次政企的“一拍即合”,不仅是一次产业升级的关键实践,更是一次培育新质生产力、构建数字产业生态的战略探索。

“楼上楼下”成就“伙伴圈”

  此次引入基地,杭州上城区拿出了优质产业空间,首期1.3万平方米位于九堡街道的杭海金座,既能承载大项目落地,又能兼顾小微团队孵化,让优质企业和项目从容上阵、快速成长。

  链主集聚,将带来无限可能。依托高度集聚的楼宇承载空间,上城正在着力构建一张“楼上楼下”产业生态网络,其核心便是构建起上下游协同的数据产业链。

  火山引擎方表示,将联动生态合作伙伴,共同为上城区引入丰富的产业资源:一方面,整合火山引擎生态企业及上城区本地企业的标注需求,形成标准化的订单池,为数据标注产业提供源源不断的“订单燃料”;另一方面,引入具备专业能力的标注企业,通过订单对接平台,实现需求方与供给方的高效撮合,形成“需求-供给-服务”的完整闭环。

“这种生态协同模式,能够有效降低企业的协作成本,提升区域在人工智能数据服务领域的整体竞争力,最终形成‘企业入驻-产业升级-更多企业入驻’的正向产业循环,带动区域产业集群的蓬勃发展。”萧然说。

  在签约仪式上,首批数据产业“伙伴圈”发布,北京海天瑞声科技股份有限公司是其中之一。作为国内AI训练数据领域的头部企业,海天瑞声自2024年底落户杭州上城区以来,积极融入区域数据产业发展。

  海天瑞声浙江区总经理韩义武介绍,当前数据产业最迫切的需求集中在高质量数据集供给,以及数据与算力、应用场景的深度融合。此次受邀成为上城区首批数据产业“伙伴圈”成员,海天瑞声将与火山引擎等伙伴协同,推动杭州高端数据标注基地建设,聚焦具身智能、时尚消费、金融等重点领域,打造高质量语料库和行业应用标杆。

  可以预见,随着“链主”落子、生态聚势,杭州将在数据标注这一“AI基石”上落笔生花,以高质量数据供给为人工智能创新注入不竭燃料,加速迈向“全国人工智能创新发展第一城”。

本文转载自杭州市上城区人民政府网站, 作者:杭州市上城区人民政府网站, 原文标题:《 世界数据组织在京成立同一天,杭州高端数据标注基地揭牌 》, 原文链接: https://www.hzsc.gov.cn/col/col1229250081/art/2026/art_405a94b1bf3149e496d9ab05b703389c.html。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐
点击立即订阅