当前位置: 首页 > 行业资讯 > 资讯详情

CVPR 2026 | 中科院、港中文等提出HiFi-Inpaint:无损还原物体细节,重塑Inpainting生成范式

发布日期：2026-04-14 来源：网易作者：网易

行业痛点：为什么商品细节这么难搞？

虽然当前的扩散模型（Diffusion Models）在图像生成上取得了革命性进展，甚至能通过图像定制或文本驱动编辑来生成内容，但在处理高度定制化的 “人 + 商品” 图像时，依然力不从心。

现有的 “基于参考图像的图像修复（Reference-based Inpainting）” 方法提供了一个解决思路，但在实际应用中仍面临三大阻碍：

细节易丢失：扩散模型的去噪过程倾向于将内容 “平均化” 或产生幻觉，导致纹理、形状和品牌元素（如文字）的严重不一致。
监督信号粗糙：传统的隐空间（Latent Space）MSE 损失无法提供精确到像素级别的指导，难以约束高频细节。
缺乏高质量数据：大规模、多样化且精准对齐的 “人 + 商品” 开源训练数据极度匮乏。

核心洞察与解决方案：HiFi-Inpaint

为了解决上述问题，研究团队提出了 HiFi-Inpaint。它的核心 Insight 在于：既然隐空间容易丢失高频信息，那就显式地将 “高频特征” 提取出来，直接注入到网络结构和损失函数中！

HiFi-Inpaint 能够将商品参考图无缝融合到带 Mask 的人物图像中，同时保持极高保真度的细节还原。

HiFi-Inpaint 基于 FLUX.1-Dev 架构进行了深度改造，其三大核心创新点如下：

HiFi-Inpaint 的整体框架，包含了数据集构建流程、高频特征提取、SEA 模块以及 DAL 损失。

1. 结构创新：共享增强注意力（Shared Enhancement Attention, SEA）

为了在重绘区域精准保留商品特征，研究团队设计了共享增强注意力模块。它利用共享的双流视觉 DiT 块来细化 Mask 区域内的视觉 Token。具体而言，模型在另一个分支中将商品图像的 Token 替换为对应的高频图 Token，通过学习一个权重因子，将高频特征注入回主干网络：

这种设计既增强了模型捕获复杂商品特征的能力，又因为参数共享机制，保持了模型的紧凑性（每个模块仅引入了一个额外参数）。

采用固定的高频权重（Fixed）往往会导致特征冲突，在重绘区域产生明显的视觉伪影；而 SEA 模块巧妙地引入了可学习的权重因子（Learnable），使高频细节的注入更加平滑、自适应，最终生成的 “人 + 商品” 图像在光影与结构上更加和谐真实。

2. 训练策略：细节感知损失（Detail-Aware Loss, DAL）

仅仅在模型结构上发力还不够。为了弥补隐空间监督的不足，研究团队引入了细节感知损失函数。这是一种利用高频像素级监督的损失函数：

它专门针对 Mask 区域内的高频成分（如文字边缘、图案纹理）进行约束，有效指导了那些难以仅通过潜在级别监督恢复的细粒度细节的重建。

传统的 Canny 边缘检测会无差别地提取所有轮廓，引入大量无用的背景杂乱信息（如红框所示）；而 HiFi-Inpaint 采用的特定频域滤波方法（Ours）能够精准高亮商品上的关键文字、Logo 与精细纹理（如蓝框所示），从而为 DAL 损失提供最纯净、最精确的像素级监督信号。

3. 数据破局：构建 HP-Image-40K 数据集

为了打破数据瓶颈，团队提出了一套自动化的 “自合成与过滤” 流水线，构建了包含 4 万多张高质量样本的数据集 HP-Image-40K 。流程包括：使用 FLUX.1-Dev 生成双联图（左侧商品，右侧人 + 商品）-> 边缘检测分割 ->YOLOv8 与 CLIP 进行语义一致性过滤 -> InternVL 进行文本重合度（Textual Filtering）过滤。这保证了训练数据中商品文字和形态的高度一致性。

左侧直方图展示了极为广泛的 Mask 面积占比分布，这意味着模型在训练后能自适应从 “小挂件” 到 “大物件” 的各种生成比例；右侧词云图则凸显了极其丰富的商品类别，为模型学习真实世界中千变万化的产品材质、形状和物理结构打下了极其坚实的数据基石。

惊艳的效果对比

有了高频特征引导和高质量数据的加持，HiFi-Inpaint 在定量和定性评估上都展现出了统治力。

与 ACE++、Insert Anything 和 FLUX-Kontext 相比，HiFi-Inpaint 能够完美还原瓶身上的微小文字、Logo 和瓶盖纹理，拒绝 “AI 幻觉”。

在自动评估指标中，HiFi-Inpaint 在文本对齐（CLIP-T）、视觉一致性（CLIP-I 达到 0.950，DINO 达到 0.919）和结构相似度（SSIM-HF 达到 0.429）上均取得了 SOTA（State-of-the-Art）的表现。

HiFi-Inpaint 在多项自动评估指标上取得最佳性能（上：合成测试数据，下：真实测试数据）。

此外，即使在更为复杂、未见过的真实世界数据集（包含复杂光照、遮挡、室内外场景）上，HiFi-Inpaint 依然表现出了强大的泛化能力和鲁棒性，能够自然地将目标商品融入场景并保留关键视觉属性。

无论是户外无人物理环境、大姿态全身视角、复杂商品遮挡，还是大幅度的风格迁移（如漫画风），HiFi-Inpaint 都能游刃有余。

总结与思考 (Takeaways)

HiFi-Inpaint 的出现，为电商海报生成、商品虚拟试用等商业落地场景扫清了一大障碍。它的成功给我们带来了两个核心启发：

高频信号不可忽视：在生成模型全面走向高保真度要求的今天，单纯依赖网络 “自己领悟” 隐空间特征在某些任务中是不够的。显式地引入传统图像处理中的先验（如通过傅里叶变换提取高频图），能为模型提供极其精准的 “锚点”。
Data-Centric AI 依然奏效：利用大模型进行自动化数据合成与多重严格过滤，并进行自蒸馏学习，是突破领域数据匮乏的高效途径。

目前该工作已被顶级计算机视觉会议 CVPR 2026 接收。期待未来能在更多商业和视频生成场景中看到它的身影。

论文标题： HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
论文链接： https://arxiv.org/abs/2603.02210
项目主页： https://correr-zhou.github.io/HiFi-Inpaint

本文转载自网易，作者：网易，原文标题：《 CVPR 2026 | 中科院、港中文等提出HiFi-Inpaint:无损还原物体细节,重塑Inpainting生成范式》，原文链接： https://www.163.com/dy/article/KQFAFG2J0511CQLG.html。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐

点击立即订阅

智算多多

联系我们

官方邮箱：service@zsdodo.com

公司地址：北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部

关注我们

公众号

视频号