当前位置: 首页 > 政策资讯 > 资讯详情

AAAI2026 | CR3: 基于规则的强化学习增强MLLM的组合推理能力

发布日期：2026-04-07 来源：哈尔滨工业大学作者：哈尔滨工业大学浏览：1

1. 研究背景

本文聚焦于多模态大模型（MLLM）在组合推理任务中的关键缺陷。组合推理要求模型准确理解图像与文本中物体、属性及其空间、逻辑关系的结构性绑定，是实现高级视觉理解的基础。然而，现有主流视觉语言模型（VLMs）如CLIP的训练机制并未显式建模这种结构化的互补性，而是过度依赖整体语义匹配，导致文本的结构信息被忽视，无法有效约束视觉表征的学习。如图1所示的例子，给定文本“左边的橙子发霉了，而右边的橙子是新鲜的”，CLIP模型对一张物体位置颠倒的负样本图像给出了更高的相似度得分（0.27 vs. 正确样本的0.22），而位置信息一致但实体错误的负样本则给出了更低的相似度得分（0.19 vs. 正确样本的0.22），表现出明显的实体识别能力与空间推理盲区。

这一缺陷被继承至使用CLIP作为视觉编码器的MLLM中，导致模型即使在GPT-4o等前沿系统中仍出现视觉感知与语言推理脱节的现象，如图2所示。

2. 强化学习增强方案

2.1 组相对策略优化算法

本研究选用组相对策略优化算法（GRPO）作为核心优化方法。GRPO 在保持训练稳定的同时，显著提升了实现效率与训练便捷性，特别适用于大规模模型的微调场景。GRPO 无需引入额外的价值网络来估计状态价值，而是通过组内回复之间的相对奖励比较来构建优势信号，从而避免了价值模型带来的计算开销和拟合噪声。具体而言，对于给定的问题 q，从当前策略中采样 G 个候选回复，并利用基于规则的奖励函数为每个回复计算得分。随后，将每个回复的优势定义为归一化后的奖励偏差：

2.2 数据筛选策略

原始数据中存在大量噪声样本，其正负例差异多集中于物体是否存在，而非属性、位置或逻辑关系的细微变化，易导致模型依赖粗粒度识别而非精细推理。为此，本文从TripletData中采样18.5万个图文对，结合文本与视觉双模态信息进行联合过滤。

在文本层面，使用SBERT计算正例与难负例描述之间的语义相似度，设定阈值为0.7。保留语义高度相似但关键关系不同的样本，确保模型必须理解句中属性与主体的精确绑定，而非依赖关键词匹配。在视觉层面，采用DINOv2提取图像特征并计算正负图像的表示相似度，阈值设为0.75。该步骤保留仅在颜色、位置或姿态等局部细节上存在差异的图像对，排除整体内容差异过大的低质样本，促使模型关注细粒度空间结构。

上述双重过滤机制淘汰了约90%的初始样本，最终构建出一个高质量数据集，共包含18900个样本。

2.3 多模态组合推理训练任务

为系统提升多模态大语言模型的组合推理能力，本文基于构建的高质量数据集，设计了三种可自动验证、规则明确的互补任务，统称为组合推理指令任务。这些任务通过提示词模板将原始图文对转化为结构化指令，适配于基于规则奖励的强化学习框架。

文本引导的视觉组合推理（TG-VCR）：模型根据文本描述，从两个高度相似的候选图像中选出完全匹配的一项。负样本为仅在空间、属性等组合关系上存在细微差异的难例，旨在训练模型实现精细的文本到图像对齐。
视觉引导的文本组合推理（VG-TCR）：作为TG-VCR的逆向任务，模型需根据输入图像，从一对语义相近的文本描述中选择正确描述。该任务强化图像到文本的细粒度理解，与TG-VCR共同构建双向对齐能力。
组合性图文匹配（CITM）：模型直接判断一个图文对是否精确匹配，输出“是”或“否”。所有负样本均为困难负例，且正负样本比例保持1:1，迫使模型进行深度语义验证，而非依赖选项对比。

三种任务的具体模板如表1所示。此外，为提升训练稳定性，候选选项顺序在TG-VCR和VG-TCR中随机打乱，以消除位置偏差；CITM则确保类别均衡。最终，三类任务共同构成一个高质量、多任务、可验证的指令数据集，为强化学习提供可靠监督信号，全面增强模型的组合推理能力。

最终的训练方案如图3所示，GRPO算法在三种组合推理训练任务对应的指令数据上，重复采样生成多个回复，利用基于规则的奖励函数计算每个回复的奖励分数，通过组归一化的策略得到每个回复的相对优势A，进而优化模型参数增加模型生成更优回复的概率。

3. 实验结果与分析

为评估CR³的增强效果，本文在MMVP、Winoground和Cola三个具有挑战性的组合推理基准上进行了零样本测试，涵盖Qwen2.5-VL与InternVL3等主流多模态大模型。如表2所示，CR³在所有模型上均实现显著且一致的性能提升。例如，Qwen2.5-VL-7B的平均得分从47.2提升至57.2（+10.0），InternVL3-8B从48.8提升至58.1（+9.3），平均提升超过9个绝对点，显著缩小了与GPT-4o（60.0）的差距。在关键的组合理解指标（如组得分）上提升尤为明显，如InternVL3-8B在Cola上的组得分提升达9.5点，表明模型在跨模态联合推理能力上取得实质性突破。相比监督微调（SFT），CR³平均仍领先5个点以上，验证了基于规则的强化学习能更有效引导模型探索正确推理路径。

如表3所示，CR³在多种通用多模态任务上也实现稳定且显著的性能提升，展现出强大的泛化能力。以Qwen2.5-VL-7B为例，CR³在MMMU上提升5.3分（46.7→52.0），MMBench提升2.2分，MMStar提升3.0分；在InternVL3-8B上，各项指标也全面领先，MMBench达86.4，接近性能上限。同时，CR³在HallusionBench上的幻觉率持续下降（如47.3→49.5），表明其推理更一致、可信。相比之下，监督微调（SFT）提升有限，甚至导致多个任务性能下降，如Qwen2.5-VL-3B在VSR上下降5.1分，InternVL3-2B在MMMU上下降2.0分，显示出SFT易过拟合、损害泛化能力的局限。

4. 结论

本文提出了基于规则的强化学习组合推理增强框架CR³，首次将强化学习用于系统性增强多模态大模型的组合推理能力。通过高质量的数据筛选与模型自适应的动态任务混合策略，CR³有效引导模型学会对物体、属性与关系进行精确绑定和深层理解。大量实验表明，CR³在多个主流多模态基准上平均提升超过9个绝对点（部分任务提升超19%），显著优于监督微调等传统方法。此外，CR³还系统性增强了其在空间理解、计数、OCR、幻觉抑制等细粒度任务上的能力，推动模型提升真实复杂场景的感知能力。

本文转载自哈尔滨工业大学，作者：哈尔滨工业大学，原文标题：《 AAAI2026 | CR3: 基于规则的强化学习增强MLLM的组合推理能力》，原文链接： http://insun.hit.edu.cn/2026/0407/c8177a389403/page.htm。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号

隐私协议

用户协议