首个大规模超声专属数据集发布,Ultrasound-CLIP赋能AI精准诊断丨CVPR2026

突破数据瓶颈：US-365K构建行业基石

超声影像的智能化研究长期受限于数据的稀缺性与非标准化问题。据统计，现有医疗跨模态数据集中，超声样本占比不足5%，且缺乏覆盖全解剖区域的高质量标注数据。为解决这一问题，研究团队提出了超声诊断分类体系（UDT），并基于此体系构建了US-365K数据集。

UDT框架包含两大核心模块：超声层级解剖分类（UHAT）和超声诊断属性框架（UDAF）。UHAT系统梳理了9大人体系统、52个器官的层级解剖结构，实现了解剖标注的标准化；UDAF则凝练了超声诊断的9大核心属性维度，为模型学习提供了结构化的语义支持。通过数据清洗、标准化标注和多轮专家审核，US-365K最终包含了36.4万对超声图像-文本样本，覆盖11676个真实病例，成为业内首个100%专属超声的大规模数据集。其数据有效率超过90%，为超声AI研究奠定了坚实的基础。

Ultrasound-CLIP：赋予AI超声语义理解能力

针对超声影像语义模糊、结构复杂的特点，团队设计了Ultrasound-CLIP框架。这一框架在经典的双编码器架构基础上，创新性地融入了UDAF引导的异质图编码器和基于UDAF的语义软标签两大模块。

异质图编码器：将每个超声样本的文本标注转化为样本专属的异质图，建模病灶与诊断属性之间的复杂关联。通过轻量级异质图神经网络（GNN）对图结构进行编码，并与文本嵌入融合，实现了超声诊断语义的结构化建模。

语义软标签：基于UDAF框架构建连续语义相似度矩阵，量化样本对在诊断维度上的语义亲和力，从而解决了超声诊断报告表述多样性带来的语义偏差问题。

双目标优化策略：框架结合对比损失与语义损失，既实现了图像与文本的跨模态精准对齐，又保证了语义特征的细粒度正则化。

实验结果显示，Ultrasound-CLIP在多任务分类和图文检索任务中均表现出色。例如，其图像到文本检索（I2T）@10准确率达到37.45%，文本到图像检索（T2I）@50准确率则高达80.22%。此外，在乳腺、胃肠超声等多个下游数据集上的零样本与微调任务中，模型展现了卓越的泛化能力。

推动产业应用：开源资源助力科研生态

作为领域内的开创性研究，US-365K数据集和Ultrasound-CLIP框架的发布不仅为超声AI研究提供了高质量资源，也为多模态大模型的临床适配探索了新的技术路径。目前，研究团队已将相关代码和数据集全面开源，研究者可通过GitHub和Hugging Face等平台获取。

展望未来，随着超声数据与模型能力的不断积累，超声AI有望在疾病筛查、精准诊断等领域发挥更大作用。你认为，超声影像的智能化将如何进一步突破技术与应用的边界？欢迎在评论区分享你的观点。

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号