当前位置: 首页 > 政策资讯 > 资讯详情

CVPR 2026 | ReFTA:打破张量化PEFT的「权重重建」瓶颈

发布日期：2026-03-27 来源：新浪网作者：新浪网浏览：1

参数高效微调的新范式：ReFTA

　　随着大模型在自然语言处理、计算机视觉以及多模态任务中的快速发展，全参数微调（Full Fine-tuning, FF）所带来的显存占用、训练时间和存储成本也越来越高。为了解决这一问题，参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）逐渐成为主流路线：通过冻结大部分预训练参数，仅更新少量可训练参数，使模型能够快速适配下游任务。

　　当前最常见的一类 PEFT 方法是基于矩阵低秩分解的方法，例如 LoRA 。其基本思想是将每一层的权重更新表示为一个低秩矩阵分解，从而用少量参数近似表示权重变化。这类方法结构简单、效果稳定，在大模型微调中得到了广泛应用。然而，当模型规模不断增大、层数持续增加时，这类方法仍然存在一些局限：

每一层都需要独立的低秩适配模块，可训练参数仍随层数线性增长；
低秩分解只利用了单层内部的矩阵结构，难以显式刻画不同层之间的相关性。

　　为进一步提升参数效率，近期研究开始探索张量化 PEFT（Tensorized PEFT）。这类方法将同类型层（例如各注意力层的 Q/K/V 投影矩阵）沿层维度进行堆叠，从而形成一个高阶张量结构。相比逐层的矩阵低秩分解，这种表示方式能够同时建模层内结构与跨层相关性，从而在理论上实现更紧凑的参数表示。

图 1：左—DCT（离散余弦变换）域下的张量奇异值分布；右—基于 LSM-3（权重张量经 mode-3 展开后的左奇异矩阵）的奇异值分布。可以观察到，大部分能量集中在少数主成分上。

能否在保持张量化 PEFT 参数高效性的同时，避免训练过程中反复进行权重重建？

　　本文提出的 ReFTA（Reconstruction-Free Tensor Adaptation），正是一种针对这一问题设计的张量化 PEFT 方法。

论文标题：ReFTA: Breaking the Weight Reconstruction Bottleneck in Tensorized Parameter-Efficient Fine-Tuning
论文链接：https://zhouchenlin.github.io/Publications/2026-CVPR-ReFTA.pdf

ReFTA 的核心：互换 mode-1 与 mode-3 的乘积以避免显式权重重建

　　ReFTA 的首要设计目标，是消除张量方法在训练时反复重建权重张量所带来的额外开销。具体而言，ReFTA 将 mode-1 与 mode-3 的乘积顺序对调，把原本「先重建权重、再与输入相乘」的计算过程，改写为「先生成中间特征、再进行特征融合」。由此，在前向与反向传播中就不再需要显式构造完整的大尺寸权重张量，也无需将其纳入梯度图。

　　更重要的是，这一改写并不仅仅是实现层面的优化，而是改变了训练过程中的计算范式：模型不再围绕大规模权重张量展开计算，而是转向处理与 batch 规模相关的中间特征。对于张量化 PEFT 而言，这种从「权重空间」到「特征空间」的转变，正是 ReFTA 区别于已有方法的关键所在。

张量化表示与主成分低秩适配

　　考虑将 Transformer 中同类型层的权重矩阵沿层维度堆叠：

　　其中 K 表示层数（或是注意力头数）；给定批次输入

　　对应的张量-特征乘积可写为 mode-1 乘积形式：

　　等价地，对于每一层有

　　这种堆叠方式使得可以在统一表示中刻画跨层参数共享与层间依赖关系。

　　在此基础上，ReFTA 进一步使用张量主成分分析（Tensor PCA）得到一个主成分近似：

　　其中

　　是选定的可逆正交变换，R 是张量秩。算法会基于张量奇异值阈值化，为每个水平切片分配一个

　　（不同层可能不同）。

图 2：NF4 量化误差随张量秩变化的趋势，实证支持 ReFTA 在量化下更鲁棒。

　　然后在变换域里，每个张量切片都可以写成 LoRA 类似的低秩形式：

对第 k 层：
训练时只更新和，而固定）

mode-1 与 mode-3 乘积交换

　　如果将张量低秩分解直接应用于权重，一种直接的实现方式是在每次迭代中显式重建权重：先将

　　变换回原始域得到

　　，再与 X 相乘完成前向传播。问题在于，这样做会在训练图中反复引入一个规模为

　　的大权重张量，从而带来额外的计算与显存负担。

　　ReFTA 的实现要点在于以下两步的顺序交换：

mode-1 乘（乘上 X）
mode-3 乘（乘上）

　　交换后可等价地被改写为：

　　其中，

　　，且对每个切片有

　　。换言之，ReFTA 不再采用「先重建权重、再执行前向传播」的实现方式，而是先得到中间特征，再沿第 3 维完成特征融合。

　　这一步改写带来两项直接收益：

无需在训练过程中显式重建，从而避免在计算图中引入一个与权重规模相当的大张量；
当、、，转为与 batch 规模相关的（这在训练中较为常见）时，内存与计算的关键开销会从与权重维度相关的转为与 batch 规模相关的。

　　从实现角度看，这一变化意味着训练过程中的主要开销对象发生了改变：原先需要反复处理的是规模为权重规模的权重张量，而改写之后处理的是规模为的中间特征。因此，在常见的 batch size 设置下，ReFTA 不仅在参数量上保持紧凑，也能够在训练峰值显存、反向传播开销以及整体实现复杂度上获得明显收益。

理论保证：泛化界随缩放

　　除了工程实现上的优势，ReFTA 还给出了一个针对张量化低秩 PEFT 的泛化上界。核心结论可以概括为：

　　在谱范数约束与 Lipschitz 假设下，ReFTA 的泛化 gap 上界含有一项泛化界项其中：

R 是张量秩
K 是堆叠的层数 / 注意力头数
n 是输出维度
m 是样本数

　　这意味着：

复杂度上界与张量秩 R 直接相关
让「极小参数预算下仍能保持良好的泛化能力」更有可解释性

理论与实证的呼应

　　上述理论结果表明，降低张量秩 R 会以 R/sqrt(K) 的速率减小复杂度项。这一结论也在实验中得到了对应的支持：

在不同 backbone（ViT、RoBERTa、LLaMA-family）上，使用较小的 R 时 ReFTA 能在大幅减少可训练参数的同时接近甚至超过主流 PEFT 的性能，从实证角度印证了低秩设置下的良好泛化能力；
ReFTA 避免显式权重重建的实现方式直接带来了较小的训练显存占用，这对应着理论中对有效参数和计算复杂度的控制。

表 2：该表展示了在常见 ViT 基线上的方法对比，ReFTA 在较低参数预算下仍能超越 LoRA / PiSSA

表 3：该表展示了基于 RoBERTa 模型在 GLUE 六个数据集上的微调结果；其中全参数微调（FF）和参数量最小的方法分别以灰色和浅蓝色高亮。整体上看，ReFTA 在较低参数预算下依然能够保持有竞争力的性能，体现出较好的参数效率。

图 4：左 — Car 数据集下不同可逆变换 U_0（DCT / LSM-3 等）对张量秩下性能的影响；右 — FGVC 数据集下相同对比。两图表明不同可逆变换选择会影响低秩近似的实际效用。

总结与展望

　　ReFTA 所针对的问题十分明确：张量化 PEFT 虽然能够减少可训练参数，但训练时反复进行权重重建会带来额外的计算、显存与实现成本。

　　ReFTA 的关键贡献可以概括为四点：

避免权重张量重建：通过交换 mode-1 与 mode-3 运算，避免训练过程中显式重建权重张量；
更小的初始化量化误差：通过仅微调张量中的主成分，以获得更低的量化误差；
单一 rank 配置：用一个 R 控制整体复杂度，同时为每个切片自适应分配秩；
理论保证：给出与相关的泛化界，补齐张量 PEFT 理论支撑。

　　从更宏观的角度看，ReFTA 的最大贡献不仅在于提供了一种更高效的 PEFT 方法，更在于其提出的核心思想：利用张量代数策略避免显式张量权重重建。这一思想不仅能够被应用于 PEFT 任务还有望应用于基于张量方法的模型压缩与高效模型结构设计等方向，从而为构建更加轻量而高效的模型提供新的思路。总体而言，这一方向仍具有非常广阔的拓展空间。

本文转载自新浪网，作者：新浪网，原文标题：《 CVPR 2026 | ReFTA:打破张量化PEFT的「权重重建」瓶颈》，原文链接： http://finance.sina.com.cn/tech/roll/2026-03-27/doc-inhskrwa5466164.shtml。本平台仅做分享和推荐，不涉及任何商业用途。文章版权归原作者所有。如涉及作品内容、版权和其它问题，请与我们联系，我们将在第一时间删除内容！

本文相关推荐

暂无相关推荐