当前位置: 首页 > 行业资讯 > 资讯详情

36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR'26

发布日期：2026-04-12 来源：搜狐网作者：搜狐网浏览：2

超声领域也有大模型了！

超声影像凭借实时、无辐射的优势，成为临床各场景的一线诊断手段。

但异质的解剖结构、多样的诊断属性，让通用视觉语言预训练模型难以直接适配，且现有医疗跨模态数据中超声样本占比不足5%，成为领域研究的核心瓶颈。

上图红色区域和内部百分比显示了超声图像所占的比例，而蓝色区域则展示了其余模态的占比情况。顶部标签表示绝对数量（以千为单位）。论文中所提出的US-365K是首个大规模、100%专用于超声影像的数据集。

针对这一问题，浙大城市学院联合浙江大学、香港城市大学、香港浸会大学、浙江大学医学院附属第一医院、浙江大学医学院附属妇产科医院等团队，构建了首个大规模通用超声图像-文本数据集US-365K，并提出专为超声场景设计的语义感知对比学习框架Ultrasound-CLIP，让模型真正理解超声的临床诊断语义，相关成果被CVPR 2026接收，数据集及代码已开源。

核心痛点：超声跨模态学习的三重障碍

现有视觉语言模型在超声领域的应用，始终面临三个关键问题：

数据缺口显著：主流医疗跨模态数据集以CT、MRI等为主，超声样本占比极低，缺乏大规模、标准化的专属训练数据；
语义模糊难对齐：超声诊断报告的表述多样，相同病变存在不同描述方式，传统对比学习难以精准界定正负样本，易产生语义偏差；
缺乏临床结构先验：超声诊断依赖病灶与诊断属性的复杂关联，通用模型无法建模这类专业的临床推理逻辑，仅能实现简单的关键词匹配。

上图中(a) UDT作为语义基础，通过标准化解剖层次结构（UHAT）和定义9个关键诊断属性（UDAF）来形式化超声知识。(b) Ultrasound-CLIP利用UDT的方式有两种：(1)基于UDAF的异构图编码器通过交叉注意力将属性关系融合到文本嵌入中，以建模结构化推理。(2)构建基于UDAF的语义先验，以实现双目标优化，从而解决歧义。该框架将视觉特征与这些图增强的、语义感知的文本表示对齐。

为从根本上解决上述问题，研究团队立足超声临床诊断的专业逻辑，从标准化数据构建和定制化模型设计两大维度出发，打造全链路适配超声场景的跨模态学习体系，实现双重核心技术突破。

第一步：构建UDT知识框架，打造标准化US-365K数据集

团队率先建立超声诊断分类体系（UDT），为超声数据的标准化标注和模型学习确立统一的专业依据，该体系包含两大核心模块，实现超声诊断知识的结构化、形式化：

超声层级解剖分类（UHAT）：按临床诊断原则，系统梳理9大人体系统、52个器官的层级解剖结构，明确各器官的层级归属与上下文关联，彻底解决不同数据源中解剖分类混乱的问题，实现超声解剖标注的标准化；
超声诊断属性框架（UDAF）：凝练临床医生解读超声影像时核心关注的9大诊断维度，包括身体系统、器官、诊断结果、形状、边缘、回声性、内部特征、后方声学现象、血流信号，为每个维度定制临床有效描述词汇表，形成标准化的超声诊断描述体系。

基于UDT标准化框架，团队从5个国际权威医疗数据库收集体量超声数据，经多步骤精细化处理：先过滤非超声内容，将超声视频按0.5秒间隔分解为静态帧，平衡数据多样性与冗余性；再基于UDAF框架，通过大模型+结构化提示的混合流水线，提取标准化诊断标签；最后经医疗专家逐例审核、筛选，剔除模糊、不一致样本，最终构建出US-365K数据集。

该数据集包含36.4万对超声图像-文本样本、11676个临床真实病例，覆盖全解剖区域，是业内首个100%专属超声的大规模图文数据集，数据有效率超90%，填补了超声跨模态大规模标准化数据的行业空白，为超声AI研究奠定高质量数据基础。

第二步：提出Ultrasound-CLIP框架，实现超声语义的精准建模与对齐

针对超声场景的语义模糊和结构缺失难题，团队设计出Ultrasound-CLIP语义感知对比学习框架，在经典双编码器（图像+文本）基础上，创新融入UDAF引导的异质图编码器和基于UDAF的语义软标签两大核心模块，并采用双目标优化策略，让模型具备超声领域的结构化临床推理能力，突破通用模型的局限：

（1）UDAF引导的异质图编码器，建模临床属性结构化关联

团队将每个超声样本的文本标注，转化为样本专属的异质图：基于UDAF框架定义诊断节点和属性节点两类核心节点，根据样本的标准化诊断标签确定激活节点集，并在诊断节点与属性节点间构建全二分连接，形成病灶-属性的关联图结构。

通过轻量级异质图神经网络（GNN）对异质图进行编码，得到包含节点关联信息的节点嵌入，再经注意力池化生成图汇总向量，最后通过多头交叉注意力将图嵌入与原始文本嵌入融合，并通过门控残差连接实现稳定融合，得到图增强的文本嵌入。这一过程让文本嵌入融入超声诊断标签与属性的结构化临床关联，突破单纯关键词匹配的局限，让模型能捕捉超声诊断的专业语义逻辑。

（2）基于UDAF的语义软标签，实现细粒度语义相似度度量

（3）双目标优化策略，实现跨模态精准对齐与语义正则化

框架采用对比损失+语义损失的双目标优化策略，让模型同时实现图像-文本跨模态精准对齐和语义特征的正则化：

对比损失（L(CLIP)）：采用经典对称对比损失，最大化正样本对（图像-对应文本）的相似度，最小化负样本对的相似度，实现图像与文本的基础跨模态对齐；
语义损失（L(semantic)）：融合均方误差（MSE）和KL散度，让模型预测的相似度矩阵与UDAF基语义软先验矩阵匹配，既实现相似度的数值匹配，又保证分布一致性，让语义相似的样本在特征空间中有效聚类。

通过双目标联合优化，模型既能实现超声图像与文本的精准跨模态对齐，又能精准捕捉超声诊断的细粒度语义特征，真正理解超声的临床语言。

实验验证：全任务性能领先，泛化能力适配多临床场景

团队以US-365K为基础，在多任务分类、图像-文本检索任务中开展实验，并在4个公开的超声下游数据集上验证模型泛化能力，结果显示Ultrasound-CLIP全面优于现有医疗CLIP基线模型：

图像-文本检索结果 — 图像-文本检索：图像到文本检索（I2T）@10达37.45%，文本到图像检索（T2I）@50达80.22%，实现超声图文的高效双向匹配。

下游泛化结果 — 下游泛化：在乳腺、胃肠超声等4个数据集的零样本、线性探测、全微调任务中均取得最优性能，可适配不同超声临床诊断场景。

资源开源：助力超声AI领域共同研究

为推动超声跨模态学习领域的发展，团队已将研究相关的代码和US-365K数据集公开，为后续研究者提供可直接复用的基础资源。

arxiv论文地址

项目地址

数据集地址

本文转载自搜狐网，作者：搜狐网，原文标题：《 36.4万超声图文对!中国团队构建首个大规模超声专属数据集,让AI真正读懂临床诊断语义丨CVPR'26 》，原文链接： https://www.sohu.com/a/1008425749_610300。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号