写在前面:在边缘设备资源受限的场景下,如何让大模型(Foundation Models, FMs)适应联邦持续学习(Federated Continual Learning, FCL)是一个极具挑战的问题。本文是对 arXiv:2508.09489 论文 "Large-Small Model Collaborative Framework for Federated Continual Learning" 的深度解读。
在联邦持续学习的设定中,我们面临三个核心约束:异构性 (Heterogeneity)、资源受限 (Resource Constraints) 和 灾难性遗忘 (Catastrophic Forgetting)。
符号定义 (Notation System)
为了严谨地描述 Fed-LSCL,我们首先锁定物理含义明确的符号系统:
- 客户端集合:A={A1,…,Ak},其中 k 为客户端总数。
- 任务序列:对于客户端 i,任务序列为 Ti={Ti1,…,TiN}。n 代表当前时刻,t<n 代表历史任务。
- 模型定义:
- Θ:大模型 (Foundation Model)。全局冻结 (requires_grad=False),作为通用的特征提取基座。
- θin:本地小模型 (Local Small Model)。结构异构(如 ResNet, MobileNet),用于提取本地私有数据的特征 E。
- ϕin:参数生成器 (Parameter Generator)。这是核心组件,通常为线性映射 ϕ:Rdfeat→Rdlora,用于生成微调大模型的 LoRA 参数。
总体优化目标
论文的数学本质是一个多目标优化问题。Fed-LSCL 的目标是寻找一个全局最优的参数生成策略 θgn(在异构设定下,这隐含指代了各客户端生成器的聚合状态),使得所有客户端在新旧任务上的联合损失最小化:
θgnminF⎝⎛旧任务损失{lk(Θ(θgn),{Tkt}t=1n−1)}k=1K,新任务损失{lk(Θ(θgn),Tkn)}k=1K⎠⎞
其中 F 是联邦聚合机制(如 FedAvg 或本文提出的 O2D),Θ(θgn) 表示由生成器微调后的大模型。
1. 第一层洋葱:大-小模型协同推理 (Collaborative Forward Pass)
这是 Fed-LSCL 在客户端本地最核心的前向传播链路。其核心思想是:不直接训练大模型,而是训练“生成大模型参数”的能力。
对于输入样本 (x,y)∼Tin,数据流如下:
-
特征提取 (Feature Extraction):
小模型 θi 首先观察样本,提取紧凑的特征向量 E:
E=θin(x)
-
参数生成 (Parameter Generation):
这是模型的“大脑”部分。生成器 ϕi 根据特征 E,动态生成一组 Sample-Specific 的 LoRA 参数 Wi。这意味着每张图片对应的微调参数都是不同的:
Wi=ϕin(E)
-
大模型微调与推理 (Adaptation & Inference):
将生成的 Wi 作为 Adapter 注入冻结的大模型 Θ。大模型基于此进行推理,并通过分类头 Hi 输出预测:
y^=Hi(Θ(x;adapter=Wi))
损失函数 (New Task Loss):
基于交叉熵损失,梯度将穿过冻结的 Θ,回传并更新 ϕi 和 θi:
Li,totaln=E(x,y)∼Tin[LCE(y^,y)]
2. 第二层洋葱:本地持续学习 (Local Continual Learning)
当任务从 n−1 切换到 n 时,小模型 θi 和生成器 ϕi 的参数会更新。为了防止模型忘记如何处理旧任务(灾难性遗忘),Fed-LSCL 引入了基于 Replay Buffer 的自蒸馏 (Self-Distillation) 机制。
我们维护一个旧样本缓冲区 Bin−1,并保存上一时刻的模型副本作为 Teacher(θin−1,ϕin−1)。对于旧样本 x^∈Bin−1,我们需要约束两个层面的“不变性”:
LCL=∣Bin−1∣1(x^,y^)∈Bin−1∑⎣⎢⎢⎡特征层面的锚定λE∥∥∥∥E^−E^′∥∥∥∥22+生成能力的锚定λW∥∥∥∥W^i−W^i′∥∥∥∥22⎦⎥⎥⎤
- 项 1 (Feature Consistency):E^ 是当前模型提取的特征,E^′ 是旧模型提取的特征。我们要求小模型的“眼光”不能变。
- 项 2 (Generator Consistency):W^i 是当前生成的参数,W^i′ 是旧生成的参数。这是大模型不忘的关键——必须保证对于旧图片,生成的 LoRA 指令保持不变,否则大模型的行为就会发生漂移。
3. 第三层洋葱:逐一蒸馏聚合 (One-by-One Distillation)
这是处理 联邦异构性 (Heterogeneity) 的神来之笔。
问题:由于 Client A 可能用 ResNet,Client B 可能用 VGG,它们的参数维度不同,无法进行传统的 FedAvg (∑θi 无意义)。
观察:虽然 Backbone θ 不同,但参数生成器 ϕ (Linear Layer) 的结构可以是同构的。
方案:在 Server 端,通过特征对齐来聚合 ϕ。
客户端只上传生成器 ϕi 和本地缓冲区的特征集 FSi(保护隐私,不传原图)。Server 端通过 One-by-One Distillation (O2D) 算法更新 ϕi :
ϕin=argϕminj=i∑Ex∈FSjn[∥∥∥ϕ(x)−ϕjn(x)∥∥∥22]+λ∥ϕ−ϕin∥22
公式推导与物理含义:
- 拟合老师 (Knowledge Fusion):第一项 ∑∥…∥22。对于其他客户端 j 提供的特征 x,学生 i 的生成器 ϕ 应当能生成与老师 j 相同的 LoRA 参数。这实现了跨客户端的知识迁移。
- 自我约束 (Personalization):第二项 λ∥…∥22。防止在学习别人的时候,完全丢失了本地的个性化知识。
几何解释:
数学上,O2D 等价于将学生 i 的输出向量投影到所有老师输出构成的 凸包 (Convex Hull) 上。这不仅解决了异构性问题,还通过集成学习的思想增强了泛化性。