avatar

Chen Kunpeng

Tongji University. Focusing on Trustworthy AI & Federated Learning.

【Paper Note】Fed-LSCL:联邦持续学习中的大小模型协同机制

写在前面:在边缘设备资源受限的场景下,如何让大模型(Foundation Models, FMs)适应联邦持续学习(Federated Continual Learning, FCL)是一个极具挑战的问题。本文是对 arXiv:2508.09489 论文 "Large-Small Model Collaborative Framework for Federated Continual Learning" 的深度解读。

0. 问题背景与建模 (Problem Formulation)

在联邦持续学习的设定中,我们面临三个核心约束:异构性 (Heterogeneity)资源受限 (Resource Constraints)灾难性遗忘 (Catastrophic Forgetting)

符号定义 (Notation System)

为了严谨地描述 Fed-LSCL,我们首先锁定物理含义明确的符号系统:

  • 客户端集合A={A1,,Ak}\mathcal{A} = \{A_1, \dots, A_k\},其中 kk 为客户端总数。
  • 任务序列:对于客户端 ii,任务序列为 Ti={Ti1,,TiN}\mathcal{T}_i = \{T_i^1, \dots, T_i^N\}nn 代表当前时刻,t<nt < n 代表历史任务。
  • 模型定义
    • Θ\Theta大模型 (Foundation Model)。全局冻结 (requires_grad=False\text{requires\_grad}=\text{False}),作为通用的特征提取基座。
    • θin\theta_i^n本地小模型 (Local Small Model)。结构异构(如 ResNet, MobileNet),用于提取本地私有数据的特征 EE
    • ϕin\phi_i^n参数生成器 (Parameter Generator)。这是核心组件,通常为线性映射 ϕ:RdfeatRdlora\phi: \mathbb{R}^{d_{feat}} \to \mathbb{R}^{d_{lora}},用于生成微调大模型的 LoRA 参数。

总体优化目标

论文的数学本质是一个多目标优化问题。Fed-LSCL 的目标是寻找一个全局最优的参数生成策略 θgn\theta_g^n(在异构设定下,这隐含指代了各客户端生成器的聚合状态),使得所有客户端在新旧任务上的联合损失最小化:

minθgnF({lk(Θ(θgn),{Tkt}t=1n1)}k=1K旧任务损失,{lk(Θ(θgn),Tkn)}k=1K新任务损失)\min_{\theta_g^n} F \left( \underbrace{\{ l_k(\Theta(\theta_g^n), \{T_k^t\}_{t=1}^{n-1}) \}_{k=1}^K}_{\text{旧任务损失}}, \underbrace{\{ l_k(\Theta(\theta_g^n), T_k^n) \}_{k=1}^K}_{\text{新任务损失}} \right)

其中 FF 是联邦聚合机制(如 FedAvg 或本文提出的 O2D),Θ(θgn)\Theta(\theta_g^n) 表示由生成器微调后的大模型。


1. 第一层洋葱:大-小模型协同推理 (Collaborative Forward Pass)

这是 Fed-LSCL 在客户端本地最核心的前向传播链路。其核心思想是:不直接训练大模型,而是训练“生成大模型参数”的能力

对于输入样本 (x,y)Tin(x, y) \sim T_i^n,数据流如下:

  1. 特征提取 (Feature Extraction)
    小模型 θi\theta_i 首先观察样本,提取紧凑的特征向量 EE

    E=θin(x)E = \theta_i^n(x)

  2. 参数生成 (Parameter Generation)
    这是模型的“大脑”部分。生成器 ϕi\phi_i 根据特征 EE,动态生成一组 Sample-Specific 的 LoRA 参数 WiW_i。这意味着每张图片对应的微调参数都是不同的:

    Wi=ϕin(E)W_i = \phi_i^n(E)

  3. 大模型微调与推理 (Adaptation & Inference)
    将生成的 WiW_i 作为 Adapter 注入冻结的大模型 Θ\Theta。大模型基于此进行推理,并通过分类头 HiH_i 输出预测:

    y^=Hi(Θ(x;adapter=Wi))\hat{y} = H_i(\Theta(x; \text{adapter}=W_i))

损失函数 (New Task Loss)
基于交叉熵损失,梯度将穿过冻结的 Θ\Theta,回传并更新 ϕi\phi_iθi\theta_i

Li,totaln=E(x,y)Tin[LCE(y^,y)]\mathcal{L}_{i, total}^n = \mathbb{E}_{(x,y) \sim T_i^n} [\mathcal{L}_{CE}(\hat{y}, y)]


2. 第二层洋葱:本地持续学习 (Local Continual Learning)

当任务从 n1n-1 切换到 nn 时,小模型 θi\theta_i 和生成器 ϕi\phi_i 的参数会更新。为了防止模型忘记如何处理旧任务(灾难性遗忘),Fed-LSCL 引入了基于 Replay Buffer 的自蒸馏 (Self-Distillation) 机制。

我们维护一个旧样本缓冲区 Bin1\mathcal{B}_i^{n-1},并保存上一时刻的模型副本作为 Teacherθin1,ϕin1\theta_i^{n-1}, \phi_i^{n-1})。对于旧样本 x^Bin1\hat{x} \in \mathcal{B}_i^{n-1},我们需要约束两个层面的“不变性”:

LCL=1Bin1(x^,y^)Bin1[λEE^E^22特征层面的锚定+λWW^iW^i22生成能力的锚定]\mathcal{L}_{CL} = \frac{1}{|\mathcal{B}_i^{n-1}|} \sum_{(\hat{x}, \hat{y}) \in \mathcal{B}_i^{n-1}} \left[ \underbrace{\lambda_E \left\| \hat{E} - \hat{E}' \right\|_2^2}_{\text{特征层面的锚定}} + \underbrace{\lambda_W \left\| \hat{W}_i - \hat{W}_i' \right\|_2^2}_{\text{生成能力的锚定}} \right]

  • 项 1 (Feature Consistency)E^\hat{E} 是当前模型提取的特征,E^\hat{E}' 是旧模型提取的特征。我们要求小模型的“眼光”不能变。
  • 项 2 (Generator Consistency)W^i\hat{W}_i 是当前生成的参数,W^i\hat{W}_i' 是旧生成的参数。这是大模型不忘的关键——必须保证对于旧图片,生成的 LoRA 指令保持不变,否则大模型的行为就会发生漂移。

3. 第三层洋葱:逐一蒸馏聚合 (One-by-One Distillation)

这是处理 联邦异构性 (Heterogeneity) 的神来之笔。

问题:由于 Client A 可能用 ResNet,Client B 可能用 VGG,它们的参数维度不同,无法进行传统的 FedAvg (θi\sum \theta_i 无意义)。
观察:虽然 Backbone θ\theta 不同,但参数生成器 ϕ\phi (Linear Layer) 的结构可以是同构的。
方案:在 Server 端,通过特征对齐来聚合 ϕ\phi

客户端只上传生成器 ϕi\phi_i 和本地缓冲区的特征集 FSiFS_i(保护隐私,不传原图)。Server 端通过 One-by-One Distillation (O2D) 算法更新 ϕi\phi_i

ϕin=argminϕjiExFSjn[ϕ(x)ϕjn(x)22]+λϕϕin22\overline{\phi}_i^n = \arg \min_{\phi} \sum_{j \neq i} \mathbb{E}_{x \in FS_j^n} \left[ \left\| \phi(x) - \phi_j^n(x) \right\|_2^2 \right] + \lambda \left\| \phi - \phi_i^n \right\|_2^2

公式推导与物理含义

  1. 拟合老师 (Knowledge Fusion):第一项 22\sum \left\| \dots \right\|_2^2。对于其他客户端 jj 提供的特征 xx,学生 ii 的生成器 ϕ\phi 应当能生成与老师 jj 相同的 LoRA 参数。这实现了跨客户端的知识迁移。
  2. 自我约束 (Personalization):第二项 λ22\lambda \left\| \dots \right\|_2^2。防止在学习别人的时候,完全丢失了本地的个性化知识。

几何解释
数学上,O2D 等价于将学生 ii 的输出向量投影到所有老师输出构成的 凸包 (Convex Hull) 上。这不仅解决了异构性问题,还通过集成学习的思想增强了泛化性。