智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


京公网安备11010602202532号 论文类型:CVPR Main Conference
论文下载:https://arxiv.org/abs/2602.23739
论文简介:针对生成式 AI 实时交互中逻辑混乱和音画不同步的挑战,论文推出了全栈多模态对话系统 U-Mind。该系统在统一交互环路中支持语言、语音、动作和视频生成,核心采用“统一对齐与推理框架”,通过分段对齐策略和“排演驱动学习”机制,确保多模态输出的严丝合缝并保持逻辑推理能力。实验表明,U-Mind 在多模态问答及指令遵循等任务上均达到当前顶尖水平(SOTA)。
论文类型:CVPR Main Conference
论文下载:https://arxiv.org/abs/2512.20615
论文简介:论文探讨了视频数字人从“被动执行”向“主动感知与决策”的转变,提出了 L-IVA 任务基准及 ORCA(主动推理与闭环行动)框架。ORCA 通过“观察-思考-行动-反思(OTAR)”闭环机制,赋予数字人自主规划、记忆维护和主动提问能力。配合发布的 L-IVA 评测集,实验证明 ORCA 在长时序、多步任务场景中显著优于现有方法,为构建主动智能视频助手提供了新思路。
论文类型:CVPR Main Conference
论文下载:https://arxiv.org/abs/2507.13861
论文简介:PositionIC 是一个面向多主体可控图像定制的框架,旨在解决主体精确摆放与自然交互问题。研究构建了自动化管线 BMPDS 以生成高质量空间标注数据,并引入可见性感知注意力机制,通过体渲染启发的权重调制实现空间与身份特征的有效解耦。该方案轻量高效,在保持身份一致性、空间精度与视觉自然度方面显著优于现有方法,适用于电商展示及内容创作等真实应用场景。
论文类型:CVPR Main Conference
论文下载:https://arxiv.org/pdf/2602.12127
论文简介:本论文提出了通用艺术海报生成框架 PosterOmni,通过“数据—蒸馏—奖励”流水线整合了局部编辑与全局创作。该方法构建了涵盖六种任务的多场景数据集,从专业模型中提炼知识,并利用“统一奖励反馈”机制确保生成结果符合人类审美偏好。实验显示,PosterOmni 在图像保真度和设计质量上显著优于现有基准,相关代码已开源至 MeiGen-AI 仓库。
论文类型:CVPR Main Conference
论文下载:https://alexlai2860.github.io/mypaper/posterreward/PosterReward_Arxiv_official.pdf
论文简介:针对现有奖励模型难以捕捉字体、布局等精细平面设计元素的问题,论文构建了利用多模态大模型自动生成偏好对的流程,并提出多阶段奖励模型 PosterReward。该模型有效解决了高质量平面设计偏好数据匮乏的难题,能够对图形设计进行精准评估。实验表明,PosterReward 在电商及影视海报的打分与分析性能上显著优于现有模型。
论文类型:CVPR Main Conference
论文下载:https://arxiv.org/pdf/2512.03575
论文简介:UniComp,从信息论角度重构视频压缩。研究将压缩形式化为最小化条件熵H(X|S)问题,建立信息独特性与重建误差的理论关联,证明最大化保留Token独特性等价于最小化信息损失。框架包含三个模块,仅需两个超参数,无需修改模型结构,跨架构通用。实验表明 5%极端压缩下仍能保留关键语义细节。
论文类型:CVPR Main Conference
论文下载:https://arxiv.org/pdf/2512.03043
论文简介:针对现有视觉强化学习模型受限于单一模态或任务的“专才”局限,本论文提出了统一的多模态视觉推理通才模型 OneThinker。研究团队不仅构建了覆盖图文与视频、包含十类核心视觉任务的统一数据集 OneThinker-600k,还创新性地提出了 EMA-GRPO 算法,有效解决了多任务强化学习训练中的奖励不平衡问题。实验表明,该模型横扫了 31 个主流基准测试,展现出极强的零样本泛化能力,目前相关代码与数据已全部开源。
论文类型:CVPR Main Conference
论文下载:https://arxiv.org/pdf/2510.18632
论文简介:为弥补当前多模态大模型大多停留在 2D 推理、缺乏三维几何结构表达的缺陷,论文提出了首个内蕴三维空间意象的“Think with 3D”推理范式 3DThinker。该方法无需 3D 标注数据,通过“监督蒸馏”与“强化训练”二段式潜空间对齐机制,将 3D 基础模型特征注入推理链,让模型在生成文本时学会“脑补”几何特征。实验证明,该方法大幅刷新了空间推理性能的 SOTA,且具备能够直接从生成的 3D 潜变量中恢复出三维点云的极强可解释性。
论文类型:CVPR Main Conference
论文下载:https://arxiv.org/abs/2511.16671
论文简介:针对文生图模型在复杂空间控制上的偏差以及传统修改策略缺乏灵活性或开销巨大的局限,论文首创了在单一轨迹中深度交织文本推理与视觉生成的 TwiG 框架。该方法将生成过程拆解为“生成-思考-再生成”的循环,让模型像人类画师一样在作画时,通过规划思维时间表、生成思维链和触发自我批判局部重画来进行动态修正。实验表明,TwiG 显著减少了生成幻觉,其强化学习版本在关键指标上已能匹敌 FLUX.1 等顶尖模型,相关代码及项目已全部开源。
论文类型:CVPR Main Conference
论文下载:https://arxiv.org/abs/2512.11336
论文简介:针对视频大语言模型在跨粒度关联上的局限,论文提出了统一框架 UFVideo。该框架通过视觉-语言引导对齐机制,融合大语言模型的生成能力与 SAM2 掩码解码器,实现了全局问答、像素级分割及时间定位等多粒度任务的协同处理。此外,研究构建了包含三个全新协同任务的综合基准测试 UFVideo-Bench。实验证明,UFVideo 在常规视频理解、目标指代等 9 个基准测试中均达到领先水平。
