智算多多



想象这样一个场景:你正在使用一个基于多模态大模型的语音助手指导你做饭;对于大多数已有的多模态大模型,它只能在你提出问题后做出回复。也就是说,你在手忙脚乱地操作厨具的同时,还要一次一次地提问 “现在我该怎么做?”。但更理想的体验是,模型可以在看你操作的时候,不需要你给出指令,就主动提供讲解。
这就是 "主动交互"(Proactive Interaction)要解决的问题。如上图所示,与传统的离线交互(offline,先提供整个视频,然后基于视频内容展开对话)和在线交互(online,用户每次提问后模型回复)不同,主动交互要求模型自主决定何时回复,即能根据视频的进展自主选择合适的时机主动向用户提供信息。
这种能力对很多真实场景至关重要:例如直播管理、智能监控、第一人称视角助手等应用场景都需要模型能够主动、及时地响应视频中的关键事件。下面是 MMDuet2 模型在处理游戏直播时的一个例子:用户在视频开始时提出一个需要关注的事件(屏幕上出现表示游戏中重要事件的大字),每次这个事件发生时,MMDuet2 模型就会及时给出解释。
但目前这个问题仍然没有受到足够的重视;虽然有一些工作训练的多模态大模型声称具备主动交互能力,他们也并没有对这种能力进行定量的评估。这背后反映的问题是:如何评估主动交互能力?如何训练主动交互能力?这两个基础问题一直缺乏系统性的解决方案。ProactiveVideoQA 和发表在 ICLR 2026 上的 MMDuet2 这两篇工作恰好构成了一个完整的方案:前者定义了问题和评估标准,后者提供了训练解决方案并达到了最佳性能。
ProactiveVideoQA 是首个专门评估视频多模态模型主动交互能力的综合基准测试。它的核心特征有三个:
PAUC 的计算方式如上图所示:受到人机交互领域中的用户旅程地图(User Journey Map)的启发,我们将模型在每个时间点的累积回复质量分数绘制成折线图,并计算折线下面积与最大可能面积的比值(蓝色面积与黄色面积 + 蓝色面积的比值):
关于这个指标为什么可以兼顾回复的及时性和准确性,下图有一个直观的几何解释:
MMDuet2 是在 ProactiveVideoQA 基准上达到 SOTA 性能的支持主动交互的视频多模态模型。它的主要贡献包括:
本文提出的主动交互对话数据集的构建流程如下:
MMDuet2 使用了如下的 chat template 来表示主动交互的过程:
首先,我们使用自定义的 system prompt 作为一个主动交互对话的开头。这不仅为模型提供了对话规则,还通过不同的 system prompt 来区分主动和离线视频任务。user 输入一条消息,其中包括来自视频的少量(本文中为 1 或 2 帧)帧和可选的文本输入。在 assistant 的回合中,模型可以选择生成一些文本内容作为回复,或生成 "NO REPLY" 来表示它不想在这一轮中回复。随后,user 重新获得发言权并继续输入包含帧和可选的文本的消息。这个循环持续到视频中的所有帧都已被输入完成。
在这个 chat template 中,视频中每个 user 回合或 assistant 回合的时间点可以通过将此回合之前的帧数乘以帧之间的时间间隔来计算得出。例如,在每秒 1 帧的帧采样率下,上图中的对话表示用户在第 2 秒说 "What are the people doing in office?",模型在第 4 秒回复 "People are working...",在第 8 秒回复 "A reporter is speaking..."。
MMDuet2 的训练分为两个阶段。在监督微调(SFT)阶段,模型基于 Qwen2.5-VL 3B 初始化,使用 52k 条主动交互对话数据进行训练,并混合 25k 离线视频 QA 和 25k 条 video captioning 数据以保持通用视频理解能力。为了避免模型产生幻觉,SFT 阶段我们将模型回复的时间点选为每个时间段的末尾,确保相关内容在回复前已经发生。整个 SFT 阶段在 16 张 H800 GPU 上训练 8 小时。
然而,纯监督学习存在明显的局限性:因为我们将模型回复的时间点选在了每个时间段的末尾,这导致模型学会了看到关键信息出现时不立刻回复相关内容而是等这段视频播放完了再说,这造成了一个我们并不想要的回复延迟。另外,由于 SFT 数据中模型输出 "NO REPLY" 的频率远高于输出有实际意义的回复内容的概率,这导致模型在测试时也更倾向于输出 "NO REPLY"。
通过这种方式,模型能够在无需精确时间标注的情况下学习到最优的回复时机。整个 RL 阶段用了 1900 个视频,在 8 张 H800 GPU 上训练 20 小时,最终在 ProactiveVideoQA 基准上达到了 SOTA 性能。
上图中在 ProactiveVideoQA 的 [WEB] [EGO] 子任务上的回复轮数统计显示,RL 训练后模型的回复次数明显提升,解决了 SFT 模型 "回复过少" 的问题。
上图中展示了在 StreamingBench Proactive Output 任务上的表现,以及 ProactiveVideoQA benchmark 上的 PAUC 指标和回复重复率。我们的 MMDuet2 模型达到最佳性能且明显降低回复重复率。
和本工作中使用强化学习引导模型学会回复时机判断相比,之前的主动交互模型 VideoLLM-online 和 MMDuet 通过在每帧后预测代表回复概率的分数,并比较分数是否大于阈值来决定是否在该帧后插入回复。他们的做法的缺点是测试时很难找到合适的阈值,从而导致模型总是不回复或生成大量重复回复。
在 Video-MME、MVBench、LongVideoBench 等离线基准上,MMDuet2 的性能与训练前的原模型 Qwen2.5-VL 基本持平,说明 SFT+RL 训练没有损害通用视频理解能力。
帧采样密度是影响主动交互体验的关键因素。本文在 SFT、RL 和推理三个阶段测试了不同的帧采样间距:
这一发现表明 MMDuet2 在 RL 阶段对不同帧采样策略具有良好的鲁棒性,且在推理时使用更密集的帧采样能显著改善交互体验。
MMDuet2 和 ProactiveVideoQA 共同构建了视频多模态模型主动交互的完整解决方案: