智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


虽然当前的扩散模型(Diffusion Models)在图像生成上取得了革命性进展,甚至能通过图像定制或文本驱动编辑来生成内容,但在处理高度定制化的 “人 + 商品” 图像时,依然力不从心。
现有的 “基于参考图像的图像修复(Reference-based Inpainting)” 方法提供了一个解决思路,但在实际应用中仍面临三大阻碍:
为了解决上述问题,研究团队提出了 HiFi-Inpaint。它的核心 Insight 在于:既然隐空间容易丢失高频信息,那就显式地将 “高频特征” 提取出来,直接注入到网络结构和损失函数中!
HiFi-Inpaint 能够将商品参考图无缝融合到带 Mask 的人物图像中,同时保持极高保真度的细节还原。
HiFi-Inpaint 基于 FLUX.1-Dev 架构进行了深度改造 ,其三大核心创新点如下:
HiFi-Inpaint 的整体框架,包含了数据集构建流程、高频特征提取、SEA 模块以及 DAL 损失。
为了在重绘区域精准保留商品特征,研究团队设计了共享增强注意力模块。它利用共享的双流视觉 DiT 块来细化 Mask 区域内的视觉 Token。具体而言,模型在另一个分支中将商品图像的 Token 替换为对应的高频图 Token,通过学习一个权重因子,将高频特征注入回主干网络:
这种设计既增强了模型捕获复杂商品特征的能力,又因为参数共享机制,保持了模型的紧凑性(每个模块仅引入了一个额外参数)。
采用固定的高频权重(Fixed)往往会导致特征冲突,在重绘区域产生明显的视觉伪影;而 SEA 模块巧妙地引入了可学习的权重因子(Learnable),使高频细节的注入更加平滑、自适应,最终生成的 “人 + 商品” 图像在光影与结构上更加和谐真实。
仅仅在模型结构上发力还不够。为了弥补隐空间监督的不足,研究团队引入了细节感知损失函数。这是一种利用高频像素级监督的损失函数:
它专门针对 Mask 区域内的高频成分(如文字边缘、图案纹理)进行约束,有效指导了那些难以仅通过潜在级别监督恢复的细粒度细节的重建。
传统的 Canny 边缘检测会无差别地提取所有轮廓,引入大量无用的背景杂乱信息(如红框所示);而 HiFi-Inpaint 采用的特定频域滤波方法(Ours)能够精准高亮商品上的关键文字、Logo 与精细纹理(如蓝框所示),从而为 DAL 损失提供最纯净、最精确的像素级监督信号。
为了打破数据瓶颈,团队提出了一套自动化的 “自合成与过滤” 流水线,构建了包含 4 万多张 高质量样本的数据集 HP-Image-40K 。 流程包括:使用 FLUX.1-Dev 生成双联图(左侧商品,右侧人 + 商品)-> 边缘检测分割 ->YOLOv8 与 CLIP 进行语义一致性过滤 -> InternVL 进行文本重合度(Textual Filtering)过滤。这保证了训练数据中商品文字和形态的高度一致性。
左侧直方图展示了极为广泛的 Mask 面积占比分布,这意味着模型在训练后能自适应从 “小挂件” 到 “大物件” 的各种生成比例;右侧词云图则凸显了极其丰富的商品类别,为模型学习真实世界中千变万化的产品材质、形状和物理结构打下了极其坚实的数据基石。
有了高频特征引导和高质量数据的加持,HiFi-Inpaint 在定量和定性评估上都展现出了统治力。
与 ACE++、Insert Anything 和 FLUX-Kontext 相比,HiFi-Inpaint 能够完美还原瓶身上的微小文字、Logo 和瓶盖纹理,拒绝 “AI 幻觉”。
在自动评估指标中,HiFi-Inpaint 在文本对齐(CLIP-T)、视觉一致性(CLIP-I 达到 0.950,DINO 达到 0.919)和结构相似度(SSIM-HF 达到 0.429)上均取得了 SOTA(State-of-the-Art) 的表现。
HiFi-Inpaint 在多项自动评估指标上取得最佳性能(上:合成测试数据,下:真实测试数据)。
此外,即使在更为复杂、未见过的真实世界数据集(包含复杂光照、遮挡、室内外场景)上,HiFi-Inpaint 依然表现出了强大的泛化能力和鲁棒性,能够自然地将目标商品融入场景并保留关键视觉属性。
无论是户外无人物理环境、大姿态全身视角、复杂商品遮挡,还是大幅度的风格迁移(如漫画风),HiFi-Inpaint 都能游刃有余。
HiFi-Inpaint 的出现,为电商海报生成、商品虚拟试用等商业落地场景扫清了一大障碍。它的成功给我们带来了两个核心启发:
目前该工作已被顶级计算机视觉会议 CVPR 2026 接收。期待未来能在更多商业和视频生成场景中看到它的身影。
论文标题: HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
论文链接: https://arxiv.org/abs/2603.02210
项目主页: https://correr-zhou.github.io/HiFi-Inpaint
