首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们

TPAMI 2026 | 山东大学提出 CSSAM:打破恶劣环境限制,显著性目标检测迈向全天候实战

发布日期:2026-04-03 来源:搜狐网作者:搜狐网

走出实验室:为什么我们需要 CSOD?

  长期以来,显著性目标检测的研究大多集中在光照充足、背景清晰的理想场景下。然而,一旦把这些模型放到低光、雾天、雨雪等真实环境中,性能往往会大幅缩水。

  以往的解决思路通常是“先恢复,后检测”:先用一个去雾或增强模型把图片变清晰,再交给检测模型。听起来很合理,但实际操作中却有不少坑。首先,在开放环境下很难获得真实的“清晰图”作为训练标签;其次,为了让人眼看清而设计的增强算法,未必对机器检测有益;最后,两阶段的流程太慢了,对于需要实时反应的无人系统来说,每一毫秒都很珍贵。

图 1 展示了低光和雾天场景下现有方法的局限性
图 1 展示了低光和雾天场景下现有方法的局限性

  如上图所示,在低光环境下,物体几乎与背景融为一体;在浓雾中,飞机的机翼被完全遮蔽。现有的 SOTA 方法(如 MDSAM)或图像恢复方法(如 RAM、FoundIR)在这些场景下都显得力不从心。

  为了填补这一空白,研究团队构建了 CSOD10K 数据集。这是首个专门针对多约束条件设计的 SOD 数据集,包含 10,000 张精心标注的图像,涵盖了 8 种真实受限场景:

  • 不利环境:低光(Low-light)、雾(Fog)、雨(Rain)、雪(Snow)。
  • 介质干扰:水下(Underwater)、反射(Reflection)。
  • 成像缺陷:模糊(Blur)、过曝(Overexposure)。
图 2 展示了 CSOD10K 数据集中的图像示例及像素级标注
图 2 展示了 CSOD10K 数据集中的图像示例及像素级标注

  相比于传统数据集,CSOD10K 的挑战性在于更低的颜色对比度、更小的中心偏差(物体不一定在中间)以及更丰富的物体类别(超过 100 种)。这种多样性迫使模型必须具备真正的“鲁棒性”,而不是依赖简单的统计先验。

方法详解:如何给 SAM 注入“场景感知力”?

  面对这些挑战,研究团队提出了一种基于 SAM2 的端到端框架 CSSAM

图 5 对比了传统的两阶段模式与本文提出的端到端模式
图 5 对比了传统的两阶段模式与本文提出的端到端模式

  CSSAM 的核心思想是在保留 SAM 强大泛化能力的同时,通过轻量级的模块让它学会识别并适应不同的环境约束。

场景先验引导适配器(SPGA)

  SAM 虽然厉害,但它是在自然场景下训练的,面对低光或水下图像时会产生明显的“领域鸿沟”。直接全量微调 SAM 的编码器成本太高,且容易破坏其预训练的特征表达。

  为此,作者设计了场景先验引导适配器(Scene Prior-Guided Adapter, SPGA)。在编码阶段,SAM2 的编码器参数被冻结,SPGA 被插入其中进行参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)

  SPGA 的巧妙之处在于它引入了分类任务。它首先提取特征进行场景分类,然后将学习到的场景类别信息作为“先验”,通过交叉注意力(Cross-Attention)机制注入到图像特征中。

图 6 展示了 CSSAM 的整体框架结构
图 6 展示了 CSSAM 的整体框架结构

混合提示解码策略(HPDS)

  SAM 本质上是一个交互式分割模型,需要人工输入点、框或掩码作为提示(Prompts)。但在自动化的 SOD 任务中,我们希望模型能直接输出结果。

  为了解决这个问题,作者提出了混合提示解码策略(Hybrid Prompt Decoding Strategy, HPDS)。它包含两个关键组件:

图 7 展示了提示集成模块 PIM 的详细结构
图 7 展示了提示集成模块 PIM 的详细结构

实验结果:全方位的性能碾压

  研究团队在 NVIDIA RTX 4090 GPU 上对 CSSAM 进行了训练和测试。实验结果显示,CSSAM 在 CSOD10K 数据集以及多个标准 SOD 数据集(如 DUTS、DUT-OMRON)上均取得了 SOTA 性能。

表 3 展示了 CSSAM 与其他 18 种 SOTA 方法在 CSOD10K 上的定量对比
表 3 展示了 CSSAM 与其他 18 种 SOTA 方法在 CSOD10K 上的定量对比

  更难得的是,CSSAM 在保持高精度的同时,推理速度也非常快。CSSAM-T/B/L 三个版本的帧率分别达到了 55 FPS、42 FPS 和 35 FPS,完全满足实时检测的需求。

  在定性对比中,CSSAM 的优势更加直观。无论是低光下的椅子、大雨中的蚂蚁,还是水下的沉船,CSSAM 都能勾勒出完整且精细的轮廓。

图 8 展示了不同受限场景下的可视化对比结果
图 8 展示了不同受限场景下的可视化对比结果

挑战与局限:极端的考验

  尽管 CSSAM 表现优异,但在一些极端恶劣的条件下仍然存在局限性。作者在论文中也展示了一些失败案例。

图 12 展示了 CSSAM 在极端受限条件下的失败案例
图 12 展示了 CSSAM 在极端受限条件下的失败案例

  如上图所示,在几乎完全黑暗(Extreme Low-light)的环境下,模型难以捕捉完整的物体结构;在特大暴雪或浓雾中,由于可见度极低且噪声极强,模型生成的掩码会出现破碎或丢失。作者指出,也许可以考虑引入多模态信息(如深度图、热成像或文本描述)来弥补纯视觉信息的不足。

  这项研究的价值不仅在于提出了一个性能强劲的模型,更在于它让显著性目标检测更贴近实战。

  通过构建 CSOD10K 数据集,山东大学的研究团队为社区提供了一个宝贵的“练兵场”;而 CSSAM 的端到端设计,则证明了通过合理的适配和提示生成,像 SAM 这样的基础模型完全可以胜任极端环境下的复杂任务。

本文转载自搜狐网, 作者:搜狐网, 原文标题:《 TPAMI 2026 | 山东大学提出 CSSAM:打破恶劣环境限制,显著性目标检测迈向全天候实战 》, 原文链接: https://www.sohu.com/a/1003266514_100279313。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐