首页
智算服务
AI 生态大厅
算力商情政策资讯合作与生态场景方案关于我们

ICLR 2026|让多模态模型学会主动说话:主动交互从训练到评估的完整方案

发布日期:2026-03-30 来源:百家号作者:百家号浏览:1

主动交互:视频大语言模型的新挑战

  但更理想的体验是,模型可以在看你操作的时候,不需要你给出指令,就主动提供讲解。这就是“主动交互”(Proactive Interaction)要解决的问题。

  这种能力对很多真实场景至关重要:例如直播管理、智能监控、第一人称视角助手等应用场景都需要模型能够主动、及时地响应视频中的关键事件。但目前这个问题仍然没有受到足够的重视;虽然有一些工作训练的多模态大模型声称具备主动交互能力,他们也并没有对这种能力进行定量的评估。这两个基础问题一直缺乏系统性的解决方案。

ProactiveVideoQA:构建评估基准

  ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models 提出了一套专门用于评估视频大语言模型主动交互能力的指标与 benchmark。

  该工作首次系统性地定义了主动交互任务,并构建了涵盖多种场景和事件类型的评测数据集,为后续研究提供了统一的评估标准。

MMDuet2:无需精确时间标注的强化学习训练

  MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

  这一方法显著降低了对标注数据的依赖,使得模型能够在更贴近真实应用的条件下进行训练和部署。

  项目主页:https://github.com/yellow-binary-tree/ProactiveVideoQA

本文转载自百家号, 作者:百家号, 原文标题:《 ICLR 2026|让多模态模型学会主动说话:主动交互从训练到评估的完整方案 》, 原文链接: https://baijiahao.baidu.com/s?id=1861062698911953951&wfr=spider&for=pc。 本平台仅做分享和推荐,不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题,请与我们联系,我们将在第一时间删除内容!
本文相关推荐
暂无相关推荐