当前位置: 首页 > 政策资讯 > 资讯详情

TGRS | CLIP+DINOv3,遥感分割终于稳住了伪标签漂移

发布日期：2026-04-05 来源：知乎作者：知乎

![](https://pica.zhimg.com/v2-4ccf23391f6b6698b5eea492215f448c_1440w.jpg)

代码：https://xavierjiezou.github.io/Co2S/

一、研究方向及背景

这篇文章属于遥感图像语义分割与半监督学习的交叉方向，更具体地说，是基于视觉基础模型（Vision Foundation Models）的半监督遥感分割。论文关注的现实痛点很明确：遥感图像像素级标注代价高昂，而已有半监督方法又容易在训练中不断强化错误伪标签，导致性能不稳定。为此，作者引入CLIP 这类视觉-语言模型与 DINOv3 这类自监督视觉模型的异质先验，希望通过两类基础模型的互补能力，提升低标注场景下的训练稳定性。

从问题设定上看，论文并不是单纯追求更高的 mIoU，而是把“如何稳定地利用未标注数据”作为主线。作者明确指出，传统 consistency learning、pseudo-labeling、GAN-based 方法在遥感复杂场景中容易受到语义混淆、边界模糊和噪声累积的影响，因此需要更强的外部先验来纠偏。

二、主要研究方法或创新点

1. 提出稳定的双学生框架 Co2S

论文提出的方法名为 Co2S。整体上，它是一个异构双学生（dual-student）半监督分割框架：上分支采用 CLIP-based student，下分支采用 DINOv3-based student。二者都基于 ViT，但预训练来源不同，因此具备不同的表征偏好。作者的设计思想是：

CLIP 更擅长提供全局语义和类别先验；
DINOv3 更擅长保留局部结构和细节纹理。

论文认为，这种“异质性”比传统同构双网络更重要，因为同构模型虽然初始化不同，但往往会收敛到相似错误模式；而异构双学生更可能互相纠错，从源头减轻伪标签漂移。这个整体框架示意见图2。

2. 显式—隐式语义协同引导机制

![](https://pica.zhimg.com/v2-13f0f074dac6a9bbc4509c88f2ee56ea_1440w.jpg)

这是论文最核心的创新之一。作者提出了 Explicit-Implicit Semantic Collaborative Guidance：

（1）显式语义引导：来自 CLIP 文本嵌入

对于 CLIP 分支，作者利用冻结的 CLIP 文本编码器，将每个语义类别构造成若干细粒度概念描述，再通过 prompt 编码得到类别原型，形成显式文本查询矩阵。这样做的本质是：把语言层面的类别先验直接引入分割解码过程，使模型在极少标注时也能获得稳定的类别语义锚点。相关公式见文中公式 (5)(6)，整体流程可对应图2上半部分。

（2）隐式语义引导：来自 DINOv3 可学习 queries

对于 DINOv3 分支，作者不使用文本，而是引入一组可学习查询向量，作为隐式类别级表示。这些 query 会和 DINOv3 backbone 一起训练，逐步适应遥感影像的视觉分布。相关定义见公式 (7)，同样体现在图2下半部分。

（3）显式与隐式协同

论文强调，这两类语义并非各自独立。虽然前向传播时文本嵌入和 learnable queries 分开工作，但在优化阶段会通过稳定性损失耦合起来：

CLIP 的显式类别语义可帮助 DINOv3 纠正类别混淆；
DINOv3 的局部结构能力又能反过来修正 CLIP 边界偏粗的问题。

所以它不是简单“两个模型做平均”，而是一种显式语义纠错 + 隐式视觉细化的协同学习机制。

3. 全局—局部特征协同融合策略

第二个关键创新是 Global-Local Feature Collaborative Fusion。作者通过注意力可视化发现，图3 中 CLIP 的注意力通常更分散，更偏向全局上下文；而 DINOv3 的注意力更集中，能够更好捕捉局部细节和目标边缘。基于这一观察，论文提出按像素置信度进行协同监督：

![](https://picx.zhimg.com/v2-21beda33872736c81c4c3d5377fdf3c7_1440w.jpg)

当两个学生都高置信时，让低置信的一方学习高置信的一方；
当只有一个学生高置信时，用高置信预测监督低置信预测；
当两者都低置信时，忽略该像素。

这一机制通过稳定性损失 L_{sta}实现，本质上是在优化层面做“仲裁式融合”，而不是粗暴平均。它的作用是把 CLIP 的全局语义与 DINOv3 的局部纹理结合起来，让预测结果同时具备类别正确性和边界精细性。对应说明见图2右侧灰色模块、图3以及公式 (9)(10)(11)(12)。

4. 在 UniMatch 弱到强一致性范式上加入稳定性约束

在训练流程上，Co2S 沿用了 UniMatch 式的弱增强—强增强—特征扰动范式，对未标注样本生成弱视图、两种强视图和 feature-perturbed 视图，并用高置信伪标签构造一致性损失 LctL_{ct}Lct。在此基础上，作者额外引入稳定性损失 LstaL_{sta}Lsta，令总目标函数为监督损失、一致性损失和稳定性损失三项加权和。也就是说，本文并不是推翻已有半监督训练范式，而是在其上加入异构基础模型先验和跨分支稳定约束，从而显著增强训练可靠性。公式见 (1)(2)(3)(4)。

三、实验结果

1. 数据集与评测设置

作者在 6 个常用遥感分割数据集上验证方法，包括：

WHDLD
LoveDA
Potsdam
GID-15
MER
MSL

覆盖地球观测与火星地表场景，数据来源、空间分辨率、类别数和复杂度都较多样。评估指标采用 mIoU。这些数据集和设置在实验部分有明确说明。

2. 总体性能表现：6 个数据集上整体领先

![](https://picx.zhimg.com/v2-32de3abb629252ad7354048671dd8143_1440w.jpg)

·从图1的雷达图可以直接看出，在 1/8 标注比例下，Co2S 在 6 个数据集上都保持了领先或并列领先的总体表现，是整篇论文最直观的总览图。图中对比了 OnlySup、FixMatch、U2PL、WSCL、UniMatch、DWL、MUCA 等方法，Co2S 在六个基准上呈现出最均衡、最稳定的结果。

3. 分数据集结果解读

![](https://pica.zhimg.com/v2-e0f29536a01b94da6f2151c0af630bc8_1440w.jpg)

（1）WHDLD：极低标注下提升明显

见表1。在 WHDLD 上，Co2S 在不同标注比例下分别达到：

1/24：61.1
1/16：61.5
1/8：62.2
1/4：62.6

其中在最苛刻的 1/24 设置下，Co2S 相比 UniMatch 的 57.4 提升 3.7 个点；相比 OnlySup 的 53.6 提升更大，说明方法在极少标注下尤其有效。

（2）LoveDA：跨城乡分布差异下仍稳健

见表2。Co2S 在 LoveDA 上取得：

1/40：58.2
1/16：60.4
1/8：62.7
1/4：64.0

尤其在最少标注的 1/40 下，较 OnlySup 的 45.9 高出 12.3 个点，说明其在存在显著城乡域差异时，依然能依靠 foundation model 先验维持较强的泛化。

（3）Potsdam：高分辨率场景中表现顶尖

见表3。Co2S 在 1/32、1/16、1/8、1/4 下分别达到 74.3、76.6、79.8、80.2。

在 1/32 时拿到最优 74.3；
在 1/8 时与 DWL 并列 79.8；
在 1/4 时略低于 DWL 的 80.3，但差距仅 0.1。

这说明 Co2S 在超高分辨率遥感影像上也具备很强竞争力。

（4）MER / MSL：火星地表场景也有效

见表4。

MER：1/8 为 56.8，1/4 为 59.1；
MSL：1/8 为 60.9，1/4 为 65.9。

两个数据集上 Co2S 都取得最好结果，说明方法并不局限于地球遥感场景，对类别不平衡、纹理复杂的行星表面分割也有较好适应性。

（5）GID-15：细粒度类别下继续领先

见表5。GID-15 上：

1/8：75.4
1/4：77.7

对比 UniMatch，在 1/8 设置下从 73.9 提升到 75.4，提升 1.5 个点。说明在类别更多、地物细粒度差异更复杂时，Co2S 依然具备稳定优势。

4. 可视化结果：类别更准，边界更清晰

![](https://pic2.zhimg.com/v2-de39c91ab50f00b7f3232f795c8ae23b_1440w.jpg)

图4 给出了六个数据集在 1/8 标注比例下的可视化对比。作者指出，许多基线方法在复杂场景中容易出现类别混淆：

在 Potsdam 中，UniMatch 和 DWL 会把大片 impervious surface 错分成 clutter；
在 WHDLD 中，左上角 vegetation 容易被错分成 water；
在 MER 中，其他方法对小岩石容易过分割，产生大量伪阳性；
在 MSL 中，bedrock 常被误分为 gravel。

而 Co2S 在这些例子中总体表现出更准确的类别判别和更规整的边界，证明其确实实现了“全局语义稳定 + 局部细节精确”的目标。

5. 伪标签稳定性：训练初期就更稳

图5 是这篇论文很有说服力的一张图。作者在 WHDLD 的 1/24 设置上，统计了前 10 个 epoch 中伪标签准确率的变化。结果显示：

OnlySup 波动很剧烈；
FixMatch 和 UniMatch 很快进入较低平台，说明早期错误被强化；
Co2S 在第一个 epoch 就迅速升到 95% 以上，并且后续保持很小波动。

这直接支持了作者的核心主张：Co2S 能有效抑制伪标签漂移，而不是只在最终 mIoU 上略有提升。

6. 消融实验：每个模块都有效

（1）显式/隐式语义引导的作用

见表6。

不使用二者：58.97
只用隐式引导：58.86
只用显式引导：60.77
两者都用：61.09

结果表明，显式文本语义贡献更大，而隐式 query 单独使用效果有限；但当二者协同时效果最好，说明二者确实互补。

（2）异构双学生比同构双学生更好

见表7。

DINOv3 + DINOv3：45.20
CLIP + CLIP：60.78
CLIP + DINOv3：61.09

这说明论文的关键不只是“双学生”，而是异质先验协同。同构 DINOv3 会严重语义漂移；同构 CLIP 虽然较强，但互补性不足。

（3）稳定性损失确实带来增益

见表8。

只用监督损失：59.98
加一致性损失：60.73
再加稳定性损失：61.09

说明 LstaL_{sta}Lsta 不是装饰项，而是提升性能与训练稳定性的关键部分。

（4）与不同自监督模型搭配

见表9。作者比较了 CLIP 与 MAE、BEiTv2、iBOT、SimMIM、DINOv3 的组合，最终 CLIP + DINOv3 最优，达到 61.09，说明 DINOv3 与 CLIP 的互补性最好。

四、总结

这篇文章的价值主要体现在两个层面。

第一，它并没有只停留在“换一个更强 backbone”这种套路上，而是围绕半监督训练不稳定、伪标签漂移严重这一核心痛点，提出了比较完整的解决思路：

用 CLIP 提供显式语义锚点，增强类别判别；
用 DINOv3 提供局部结构细节，增强边界质量；
用 异构双学生 + 置信度驱动的稳定性约束 来实现互相纠偏。

第二，实验非常充分。论文不仅在 6 个数据集上展示了稳定领先的 mIoU，还通过图4 的可视化和图5 的伪标签演化曲线说明：Co2S 的改进不是偶然的数值优势，而是训练机制层面的稳定提升。尤其在极低标注比例下，优势更明显，这也符合半监督任务最看重的实际需求。

整体来看，这是一篇面向遥感半监督语义分割、强调训练稳定性与基础模型协同利用的工作。创新点清晰，实验扎实，方法设计也有较好的可迁移性，对后续将 VLM/SSM 引入遥感低标注学习具有较强参考价值。

本文转载自知乎，作者：知乎，原文标题：《 TGRS | CLIP+DINOv3,遥感分割终于稳住了伪标签漂移》，原文链接： https://zhuanlan.zhihu.com/p/2024065638256124382。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议