Lora
为什么LoRA可以work?
- 大型预训练模型的低秩特性: 在适配下游任务时, 由于大模型存在一个潜在的低维"内在维度"(instrisic dimension), 所以即使把它们随机映射到一个较小的子空间, 他们依然可以高效准确地学习新数据的特性. LoRA就是借鉴的这中低秩思想, 即在适配下游任务时, 可以给预训练的大模型注入一个低秩的可训练的参数矩阵就可以用较少的参数捕捉到特定数据集的主要特性.
- 保持预训练权重不变, 大模型微调往往会导致原有模型出现"catastrophic forgetting"问题,但是LoRA在适配下游任务时冻结了原有参数, 确保预训练模型在适配过程中依然保持预训练阶段学到的能力.
- 灵活性和易分享性: 多个LoRA可以组合使用
- 无推理延迟: LoRA不会在模型推理阶段引入额外的时间开销, 这与adapter这种微调方式有着很大的优势