智算多多联系我们


关注我们

公众号

视频号
隐私协议用户协议
◎ 2025 北京智算多多科技有限公司版权所有京ICP备 2025150592号-1
但更理想的体验是,模型可以在看你操作的时候,不需要你给出指令,就主动提供讲解。这就是“主动交互”(Proactive Interaction)要解决的问题。
这种能力对很多真实场景至关重要:例如直播管理、智能监控、第一人称视角助手等应用场景都需要模型能够主动、及时地响应视频中的关键事件。但目前这个问题仍然没有受到足够的重视;虽然有一些工作训练的多模态大模型声称具备主动交互能力,他们也并没有对这种能力进行定量的评估。这两个基础问题一直缺乏系统性的解决方案。
ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models 提出了一套专门用于评估视频大语言模型主动交互能力的指标与 benchmark。
该工作首次系统性地定义了主动交互任务,并构建了涵盖多种场景和事件类型的评测数据集,为后续研究提供了统一的评估标准。
MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。
这一方法显著降低了对标注数据的依赖,使得模型能够在更贴近真实应用的条件下进行训练和部署。