智算多多



长期以来,显著性目标检测的研究大多集中在光照充足、背景清晰的理想场景下。然而,一旦把这些模型放到低光、雾天、雨雪等真实环境中,性能往往会大幅缩水。
以往的解决思路通常是“先恢复,后检测”:先用一个去雾或增强模型把图片变清晰,再交给检测模型。听起来很合理,但实际操作中却有不少坑。首先,在开放环境下很难获得真实的“清晰图”作为训练标签;其次,为了让人眼看清而设计的增强算法,未必对机器检测有益;最后,两阶段的流程太慢了,对于需要实时反应的无人系统来说,每一毫秒都很珍贵。

如上图所示,在低光环境下,物体几乎与背景融为一体;在浓雾中,飞机的机翼被完全遮蔽。现有的 SOTA 方法(如 MDSAM)或图像恢复方法(如 RAM、FoundIR)在这些场景下都显得力不从心。
为了填补这一空白,研究团队构建了 CSOD10K 数据集。这是首个专门针对多约束条件设计的 SOD 数据集,包含 10,000 张精心标注的图像,涵盖了 8 种真实受限场景:
相比于传统数据集,CSOD10K 的挑战性在于更低的颜色对比度、更小的中心偏差(物体不一定在中间)以及更丰富的物体类别(超过 100 种)。这种多样性迫使模型必须具备真正的“鲁棒性”,而不是依赖简单的统计先验。
面对这些挑战,研究团队提出了一种基于 SAM2 的端到端框架 CSSAM。
CSSAM 的核心思想是在保留 SAM 强大泛化能力的同时,通过轻量级的模块让它学会识别并适应不同的环境约束。
SAM 虽然厉害,但它是在自然场景下训练的,面对低光或水下图像时会产生明显的“领域鸿沟”。直接全量微调 SAM 的编码器成本太高,且容易破坏其预训练的特征表达。
为此,作者设计了场景先验引导适配器(Scene Prior-Guided Adapter, SPGA)。在编码阶段,SAM2 的编码器参数被冻结,SPGA 被插入其中进行参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)。
SPGA 的巧妙之处在于它引入了分类任务。它首先提取特征进行场景分类,然后将学习到的场景类别信息作为“先验”,通过交叉注意力(Cross-Attention)机制注入到图像特征中。
SAM 本质上是一个交互式分割模型,需要人工输入点、框或掩码作为提示(Prompts)。但在自动化的 SOD 任务中,我们希望模型能直接输出结果。
为了解决这个问题,作者提出了混合提示解码策略(Hybrid Prompt Decoding Strategy, HPDS)。它包含两个关键组件:
研究团队在 NVIDIA RTX 4090 GPU 上对 CSSAM 进行了训练和测试。实验结果显示,CSSAM 在 CSOD10K 数据集以及多个标准 SOD 数据集(如 DUTS、DUT-OMRON)上均取得了 SOTA 性能。
更难得的是,CSSAM 在保持高精度的同时,推理速度也非常快。CSSAM-T/B/L 三个版本的帧率分别达到了 55 FPS、42 FPS 和 35 FPS,完全满足实时检测的需求。
在定性对比中,CSSAM 的优势更加直观。无论是低光下的椅子、大雨中的蚂蚁,还是水下的沉船,CSSAM 都能勾勒出完整且精细的轮廓。
尽管 CSSAM 表现优异,但在一些极端恶劣的条件下仍然存在局限性。作者在论文中也展示了一些失败案例。
如上图所示,在几乎完全黑暗(Extreme Low-light)的环境下,模型难以捕捉完整的物体结构;在特大暴雪或浓雾中,由于可见度极低且噪声极强,模型生成的掩码会出现破碎或丢失。作者指出,也许可以考虑引入多模态信息(如深度图、热成像或文本描述)来弥补纯视觉信息的不足。
这项研究的价值不仅在于提出了一个性能强劲的模型,更在于它让显著性目标检测更贴近实战。
通过构建 CSOD10K 数据集,山东大学的研究团队为社区提供了一个宝贵的“练兵场”;而 CSSAM 的端到端设计,则证明了通过合理的适配和提示生成,像 SAM 这样的基础模型完全可以胜任极端环境下的复杂任务。