首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们

TGRS | CLIP+DINOv3,遥感分割终于稳住了伪标签漂移

发布日期:2026-04-05 来源:知乎作者:知乎

![](https://pica.zhimg.com/v2-4ccf23391f6b6698b5eea492215f448c_1440w.jpg)

论文http://arxiv.org/pdf/2512.23035

代码https://xavierjiezou.github.io/Co2S/

一、研究方向及背景

这篇文章属于遥感图像语义分割半监督学习的交叉方向,更具体地说,是基于视觉基础模型(Vision Foundation Models)的半监督遥感分割。论文关注的现实痛点很明确:遥感图像像素级标注代价高昂,而已有半监督方法又容易在训练中不断强化错误伪标签,导致性能不稳定。为此,作者引入CLIP 这类视觉-语言模型DINOv3 这类自监督视觉模型的异质先验,希望通过两类基础模型的互补能力,提升低标注场景下的训练稳定性。

从问题设定上看,论文并不是单纯追求更高的 mIoU,而是把“如何稳定地利用未标注数据”作为主线。作者明确指出,传统 consistency learning、pseudo-labeling、GAN-based 方法在遥感复杂场景中容易受到语义混淆、边界模糊和噪声累积的影响,因此需要更强的外部先验来纠偏。

二、主要研究方法或创新点

1. 提出稳定的双学生框架 Co2S

论文提出的方法名为 Co2S。整体上,它是一个异构双学生(dual-student)半监督分割框架:上分支采用 CLIP-based student,下分支采用 DINOv3-based student。二者都基于 ViT,但预训练来源不同,因此具备不同的表征偏好。作者的设计思想是:

  • CLIP 更擅长提供全局语义和类别先验
  • DINOv3 更擅长保留局部结构和细节纹理

论文认为,这种“异质性”比传统同构双网络更重要,因为同构模型虽然初始化不同,但往往会收敛到相似错误模式;而异构双学生更可能互相纠错,从源头减轻伪标签漂移。这个整体框架示意见图2

2. 显式—隐式语义协同引导机制

![](https://pica.zhimg.com/v2-13f0f074dac6a9bbc4509c88f2ee56ea_1440w.jpg)

这是论文最核心的创新之一。作者提出了 Explicit-Implicit Semantic Collaborative Guidance

(1)显式语义引导:来自 CLIP 文本嵌入

对于 CLIP 分支,作者利用冻结的 CLIP 文本编码器,将每个语义类别构造成若干细粒度概念描述,再通过 prompt 编码得到类别原型,形成显式文本查询矩阵。这样做的本质是:把语言层面的类别先验直接引入分割解码过程,使模型在极少标注时也能获得稳定的类别语义锚点。相关公式见文中公式 (5)(6),整体流程可对应图2上半部分

(2)隐式语义引导:来自 DINOv3 可学习 queries

对于 DINOv3 分支,作者不使用文本,而是引入一组可学习查询向量,作为隐式类别级表示。这些 query 会和 DINOv3 backbone 一起训练,逐步适应遥感影像的视觉分布。相关定义见公式 (7),同样体现在图2下半部分

(3)显式与隐式协同

论文强调,这两类语义并非各自独立。虽然前向传播时文本嵌入和 learnable queries 分开工作,但在优化阶段会通过稳定性损失耦合起来:

  • CLIP 的显式类别语义可帮助 DINOv3 纠正类别混淆;
  • DINOv3 的局部结构能力又能反过来修正 CLIP 边界偏粗的问题。

所以它不是简单“两个模型做平均”,而是一种显式语义纠错 + 隐式视觉细化的协同学习机制。

3. 全局—局部特征协同融合策略

第二个关键创新是 Global-Local Feature Collaborative Fusion。作者通过注意力可视化发现,图3 中 CLIP 的注意力通常更分散,更偏向全局上下文;而 DINOv3 的注意力更集中,能够更好捕捉局部细节和目标边缘。基于这一观察,论文提出按像素置信度进行协同监督:

![](https://picx.zhimg.com/v2-21beda33872736c81c4c3d5377fdf3c7_1440w.jpg)

  • 当两个学生都高置信时,让低置信的一方学习高置信的一方;
  • 当只有一个学生高置信时,用高置信预测监督低置信预测;
  • 当两者都低置信时,忽略该像素。

这一机制通过稳定性损失 L_{sta}实现,本质上是在优化层面做“仲裁式融合”,而不是粗暴平均。它的作用是把 CLIP 的全局语义与 DINOv3 的局部纹理结合起来,让预测结果同时具备类别正确性边界精细性。对应说明见图2右侧灰色模块图3以及公式 (9)(10)(11)(12)。

4. 在 UniMatch 弱到强一致性范式上加入稳定性约束

在训练流程上,Co2S 沿用了 UniMatch 式的弱增强—强增强—特征扰动范式,对未标注样本生成弱视图、两种强视图和 feature-perturbed 视图,并用高置信伪标签构造一致性损失 LctL_{ct}Lct。在此基础上,作者额外引入稳定性损失 LstaL_{sta}Lsta,令总目标函数为监督损失、一致性损失和稳定性损失三项加权和。也就是说,本文并不是推翻已有半监督训练范式,而是在其上加入异构基础模型先验跨分支稳定约束,从而显著增强训练可靠性。公式见 (1)(2)(3)(4)。

三、实验结果

1. 数据集与评测设置

作者在 6 个常用遥感分割数据集上验证方法,包括:

  • WHDLD
  • LoveDA
  • Potsdam
  • GID-15
  • MER
  • MSL

覆盖地球观测与火星地表场景,数据来源、空间分辨率、类别数和复杂度都较多样。评估指标采用 mIoU。这些数据集和设置在实验部分有明确说明。

2. 总体性能表现:6 个数据集上整体领先

![](https://picx.zhimg.com/v2-32de3abb629252ad7354048671dd8143_1440w.jpg)

·从图1的雷达图可以直接看出,在 1/8 标注比例下,Co2S 在 6 个数据集上都保持了领先或并列领先的总体表现,是整篇论文最直观的总览图。图中对比了 OnlySup、FixMatch、U2PL、WSCL、UniMatch、DWL、MUCA 等方法,Co2S 在六个基准上呈现出最均衡、最稳定的结果。

3. 分数据集结果解读

![](https://pica.zhimg.com/v2-e0f29536a01b94da6f2151c0af630bc8_1440w.jpg)

(1)WHDLD:极低标注下提升明显

表1。在 WHDLD 上,Co2S 在不同标注比例下分别达到:

  • 1/24:61.1
  • 1/16:61.5
  • 1/8:62.2
  • 1/4:62.6

其中在最苛刻的 1/24 设置下,Co2S 相比 UniMatch 的 57.4 提升 3.7 个点;相比 OnlySup 的 53.6 提升更大,说明方法在极少标注下尤其有效。

(2)LoveDA:跨城乡分布差异下仍稳健

表2。Co2S 在 LoveDA 上取得:

  • 1/40:58.2
  • 1/16:60.4
  • 1/8:62.7
  • 1/4:64.0

尤其在最少标注的 1/40 下,较 OnlySup 的 45.9 高出 12.3 个点,说明其在存在显著城乡域差异时,依然能依靠 foundation model 先验维持较强的泛化。

(3)Potsdam:高分辨率场景中表现顶尖

表3。Co2S 在 1/32、1/16、1/8、1/4 下分别达到 74.3、76.6、79.8、80.2

  • 1/32 时拿到最优 74.3
  • 1/8 时与 DWL 并列 79.8
  • 1/4 时略低于 DWL 的 80.3,但差距仅 0.1

这说明 Co2S 在超高分辨率遥感影像上也具备很强竞争力。

(4)MER / MSL:火星地表场景也有效

表4

  • MER:1/8 为 56.8,1/4 为 59.1
  • MSL:1/8 为 60.9,1/4 为 65.9

两个数据集上 Co2S 都取得最好结果,说明方法并不局限于地球遥感场景,对类别不平衡、纹理复杂的行星表面分割也有较好适应性。

(5)GID-15:细粒度类别下继续领先

表5。GID-15 上:

  • 1/8:75.4
  • 1/4:77.7

对比 UniMatch,在 1/8 设置下从 73.9 提升到 75.4,提升 1.5 个点。说明在类别更多、地物细粒度差异更复杂时,Co2S 依然具备稳定优势。

4. 可视化结果:类别更准,边界更清晰

![](https://pic2.zhimg.com/v2-de39c91ab50f00b7f3232f795c8ae23b_1440w.jpg)

图4 给出了六个数据集在 1/8 标注比例下的可视化对比。作者指出,许多基线方法在复杂场景中容易出现类别混淆:

  • Potsdam 中,UniMatch 和 DWL 会把大片 impervious surface 错分成 clutter;
  • WHDLD 中,左上角 vegetation 容易被错分成 water;
  • MER 中,其他方法对小岩石容易过分割,产生大量伪阳性;
  • MSL 中,bedrock 常被误分为 gravel。

而 Co2S 在这些例子中总体表现出更准确的类别判别和更规整的边界,证明其确实实现了“全局语义稳定 + 局部细节精确”的目标。

5. 伪标签稳定性:训练初期就更稳

图5 是这篇论文很有说服力的一张图。作者在 WHDLD 的 1/24 设置上,统计了前 10 个 epoch 中伪标签准确率的变化。结果显示:

  • OnlySup 波动很剧烈;
  • FixMatch 和 UniMatch 很快进入较低平台,说明早期错误被强化;
  • Co2S 在第一个 epoch 就迅速升到 95% 以上,并且后续保持很小波动。

这直接支持了作者的核心主张:Co2S 能有效抑制伪标签漂移,而不是只在最终 mIoU 上略有提升。

6. 消融实验:每个模块都有效

(1)显式/隐式语义引导的作用

表6

  • 不使用二者:58.97
  • 只用隐式引导:58.86
  • 只用显式引导:60.77
  • 两者都用:61.09

结果表明,显式文本语义贡献更大,而隐式 query 单独使用效果有限;但当二者协同时效果最好,说明二者确实互补。

(2)异构双学生比同构双学生更好

表7

  • DINOv3 + DINOv3:45.20
  • CLIP + CLIP:60.78
  • CLIP + DINOv3:61.09

这说明论文的关键不只是“双学生”,而是异质先验协同。同构 DINOv3 会严重语义漂移;同构 CLIP 虽然较强,但互补性不足。

(3)稳定性损失确实带来增益

表8

  • 只用监督损失:59.98
  • 加一致性损失:60.73
  • 再加稳定性损失:61.09

说明 LstaL_{sta}Lsta 不是装饰项,而是提升性能与训练稳定性的关键部分。

(4)与不同自监督模型搭配

表9。作者比较了 CLIP 与 MAE、BEiTv2、iBOT、SimMIM、DINOv3 的组合,最终 CLIP + DINOv3 最优,达到 61.09,说明 DINOv3 与 CLIP 的互补性最好。

四、总结

这篇文章的价值主要体现在两个层面。

第一,它并没有只停留在“换一个更强 backbone”这种套路上,而是围绕半监督训练不稳定、伪标签漂移严重这一核心痛点,提出了比较完整的解决思路:

  • CLIP 提供显式语义锚点,增强类别判别;
  • DINOv3 提供局部结构细节,增强边界质量;
  • 异构双学生 + 置信度驱动的稳定性约束 来实现互相纠偏。

第二,实验非常充分。论文不仅在 6 个数据集上展示了稳定领先的 mIoU,还通过图4 的可视化图5 的伪标签演化曲线说明:Co2S 的改进不是偶然的数值优势,而是训练机制层面的稳定提升。尤其在极低标注比例下,优势更明显,这也符合半监督任务最看重的实际需求。

整体来看,这是一篇面向遥感半监督语义分割、强调训练稳定性与基础模型协同利用的工作。创新点清晰,实验扎实,方法设计也有较好的可迁移性,对后续将 VLM/SSM 引入遥感低标注学习具有较强参考价值。

本文转载自知乎, 作者:知乎, 原文标题:《 TGRS | CLIP+DINOv3,遥感分割终于稳住了伪标签漂移 》, 原文链接: https://zhuanlan.zhihu.com/p/2024065638256124382。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐