ICLR 2026|让多模态模型学会主动说话:主动交互从训练到评估的完整方案

发布日期：2026-03-30 来源：百家号作者：百家号浏览：1

主动交互：视频大语言模型的新挑战

　　但更理想的体验是，模型可以在看你操作的时候，不需要你给出指令，就主动提供讲解。这就是“主动交互”（Proactive Interaction）要解决的问题。

　　这种能力对很多真实场景至关重要：例如直播管理、智能监控、第一人称视角助手等应用场景都需要模型能够主动、及时地响应视频中的关键事件。但目前这个问题仍然没有受到足够的重视；虽然有一些工作训练的多模态大模型声称具备主动交互能力，他们也并没有对这种能力进行定量的评估。这两个基础问题一直缺乏系统性的解决方案。

ProactiveVideoQA：构建评估基准

　　ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models 提出了一套专门用于评估视频大语言模型主动交互能力的指标与 benchmark。

　　该工作首次系统性地定义了主动交互任务，并构建了涵盖多种场景和事件类型的评测数据集，为后续研究提供了统一的评估标准。

MMDuet2：无需精确时间标注的强化学习训练

　　MMDuet2 则通过强化学习训练方法实现了 SOTA 性能，无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

　　这一方法显著降低了对标注数据的依赖，使得模型能够在更贴近真实应用的条件下进行训练和部署。

　　项目主页：https://github.com/yellow-binary-tree/ProactiveVideoQA

本文转载自百家号，作者：百家号，原文标题：《 ICLR 2026|让多模态模型学会主动说话:主动交互从训练到评估的完整方案》，原文链接： https://baijiahao.baidu.com/s?id=1861062698911953951&wfr=spider&for=pc。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐