智算多多



随着大模型在自然语言处理、计算机视觉以及多模态任务中的快速发展,全参数微调(Full Fine-tuning, FF)所带来的显存占用、训练时间和存储成本也越来越高。为了解决这一问题,参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)逐渐成为主流路线:通过冻结大部分预训练参数,仅更新少量可训练参数,使模型能够快速适配下游任务。
当前最常见的一类 PEFT 方法是基于矩阵低秩分解的方法,例如 LoRA 。其基本思想是将每一层的权重更新表示为一个低秩矩阵分解,从而用少量参数近似表示权重变化。这类方法结构简单、效果稳定,在大模型微调中得到了广泛应用。然而,当模型规模不断增大、层数持续增加时,这类方法仍然存在一些局限:
为进一步提升参数效率,近期研究开始探索张量化 PEFT(Tensorized PEFT)。这类方法将同类型层(例如各注意力层的 Q/K/V 投影矩阵)沿层维度进行堆叠,从而形成一个高阶张量结构。相比逐层的矩阵低秩分解,这种表示方式能够同时建模层内结构与跨层相关性,从而在理论上实现更紧凑的参数表示。
能否在保持张量化 PEFT 参数高效性的同时,避免训练过程中反复进行权重重建?
本文提出的 ReFTA(Reconstruction-Free Tensor Adaptation),正是一种针对这一问题设计的张量化 PEFT 方法。
ReFTA 的首要设计目标,是消除张量方法在训练时反复重建权重张量所带来的额外开销。具体而言,ReFTA 将 mode-1 与 mode-3 的乘积顺序对调,把原本「先重建权重、再与输入相乘」的计算过程,改写为「先生成中间特征、再进行特征融合」。由此,在前向与反向传播中就不再需要显式构造完整的大尺寸权重张量,也无需将其纳入梯度图。
更重要的是,这一改写并不仅仅是实现层面的优化,而是改变了训练过程中的计算范式:模型不再围绕大规模权重张量展开计算,而是转向处理与 batch 规模相关的中间特征。对于张量化 PEFT 而言,这种从「权重空间」到「特征空间」的转变,正是 ReFTA 区别于已有方法的关键所在。
考虑将 Transformer 中同类型层的权重矩阵沿层维度堆叠:
其中 K 表示层数(或是注意力头数);给定批次输入
对应的张量-特征乘积可写为 mode-1 乘积形式:
等价地,对于每一层有
这种堆叠方式使得可以在统一表示中刻画跨层参数共享与层间依赖关系。
在此基础上,ReFTA 进一步使用张量主成分分析(Tensor PCA)得到一个主成分近似:


其中
是选定的可逆正交变换,R 是张量秩。算法会基于张量奇异值阈值化,为每个水平切片分配一个
(不同层可能不同)。
然后在变换域里,每个张量切片都可以写成 LoRA 类似的低秩形式:
和
,而
固定)如果将张量低秩分解直接应用于权重,一种直接的实现方式是在每次迭代中显式重建权重:先将
变换回原始域得到
,再与 X 相乘完成前向传播。问题在于,这样做会在训练图中反复引入一个规模为
的大权重张量,从而带来额外的计算与显存负担。
ReFTA 的实现要点在于以下两步的顺序交换:
)交换后可等价地被改写为:
其中,
,且对每个切片有
。换言之,ReFTA 不再采用「先重建权重、再执行前向传播」的实现方式,而是先得到中间特征,再沿第 3 维完成特征融合。
这一步改写带来两项直接收益:
,从而避免在计算图中引入一个与权重规模相当的大张量;
、
、
,转为与 batch 规模相关的
(这在训练中较为常见)时,内存与计算的关键开销会从与权重维度相关的
转为与 batch 规模相关的
。 从实现角度看,这一变化意味着训练过程中的主要开销对象发生了改变:原先需要反复处理的是规模为
的权重张量,而改写之后处理的是规模为
的中间特征。因此,在常见的
设置下,ReFTA 不仅在参数量上保持紧凑,也能够在训练峰值显存、反向传播开销以及整体实现复杂度上获得明显收益。
缩放除了工程实现上的优势,ReFTA 还给出了一个针对张量化低秩 PEFT 的泛化上界。核心结论可以概括为:
在谱范数约束与 Lipschitz 假设下,ReFTA 的泛化 gap 上界含有一项
其中:
这意味着:
上述理论结果表明,降低张量秩 R 会以
的速率减小复杂度项。这一结论也在实验中得到了对应的支持:
ReFTA 所针对的问题十分明确:张量化 PEFT 虽然能够减少可训练参数,但训练时反复进行权重重建会带来额外的计算、显存与实现成本。
ReFTA 的关键贡献可以概括为四点:
;
相关的泛化界,补齐张量 PEFT 理论支撑。从更宏观的角度看,ReFTA 的最大贡献不仅在于提供了一种更高效的 PEFT 方法,更在于其提出的核心思想:利用张量代数策略避免显式张量权重重建。这一思想不仅能够被应用于 PEFT 任务还有望应用于基于张量方法的模型压缩与高效模型结构设计等方向,从而为构建更加轻量而高效的模型提供新的思路。总体而言,这一方向仍具有非常广阔的拓展空间。