QLoRA技术从入门到精通
1、LoRA技术1概述LoRA全称Low-Rank Adaptation低秩自适应解决的核心痛点全量微调模型如Llama 70B显存消耗巨大算力成本难以负担。核心思想在保持原参数不变的情况下利用线性代数中的“低秩矩阵”分解作为Adapter。2常规微调 vs LoRA微调一般LoRA的PEFT微调参数占全部参数的5%左右。3矩阵分解原理这里面的32就是矩阵的秩。对于N * D的矩阵转为N * r以及r * D两个矩阵我们希望r远远小于N和D。一般r建议是4 ~ 32。4权重初始化与缩放更新机制A一般初始化为高斯分布B一般初始化为0这样保证刚开始训练时为0就是没有变化之后随着训练再发生变化。5代码实现一般是基于Huggingface Transformers PEFT示例实现lora_config LoraConfig( alpha1, r8, target_modules[ q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj ], task_typeCAUSAL_LM )1r8秩。这是LoRA最重要的超参数它决定了低秩分解矩阵A和B的内部维度。2alpha1缩放系数。这是控制LoRA输出“影响力”的缩放系数。3target_modules目标模块列表。指定要把LoRA适配器挂在模型的哪些线性层上。4task_typeCAUSAL_LM任务类型。causal_lm表明这是针对因果语音模型自回归生成模型的微调比如LLaMA、Qwen等。它会告诉PEFT库采用适配该任务的前向传播逻辑例如遮蔽未来的token。2、模型量化1定义在大模型训练过程中量化是一种降低模型计算复杂度和存储需求的技术。量化的核心是将模型的权重和激活值从高精度表示如32位浮点数转换位低精度表示如8位整数从而减少计算和内存使用同时尽量保持模型性能。量化主要分为两种主要类型权重量化和激活量化。权重量化将模型权重从高精度表示例如32位浮点数转换为低精度表示例如8位整数。激活量化将模型激活值即每一层的输出从高精度表示转换为低精度表示。量化方案分两种流派线性映射、存索引号查找映射表2线性映射1对称量化核心公式反量化存储int8 / int4数值适用权重Weight2非对称量化核心公式反量化存储int8 / int4数值适用激活值Activation3存索引号查找映射表1均匀格点量化核心公式将[-1,1]均分成个格记为grid反量化存储索引编号如0~152NF4非均匀格点原理为正态分布量身定做非均匀格点0附近密集尾部稀疏且格点内含0。做法将标准正态分布按累积概率面积均分为N个等概率区间每个区间选取其中位数作为该区间的量化代表值。核心公式取当前分块中的绝对最大值反量化存储索引编号如0~15适用QLoRA微调中4-bit基座模型的权重3、QLoRA工作流程简要描述加载时压成4-bit存好计算时临时解压成16-bit算好反向时只改LoRA的小参数。1基座模型初始化量化在训练开始前将原始 FP16 基座模型离线转换为 4-bit 存储态具体拆解如下分块Block-wise将大权重张量切成小块如每 64 或 256 个值为一块目的是让每个块拥有独立的缩放因子以适配局部数值分布。计算缩放因子对于每个块计算其绝对最大值scale absmax(X_block)即该块内最大的那个数值。归一化将块内所有权重除以scale压缩到[-1, 1]区间X_norm X_block / scale。非均匀格点映射拿着归一化后的值去匹配预计算好的NF4 非均匀格点表包含 16 个专为正态分布设计的格点值取最近的格点并存储其索引0~15。双重量化Double Quantization把所有块算出来的scale原本是 FP32再收集起来进一步量化为 8-bit以节省额外显存。最终存储显存中只保留4-bit 的索引8-bit 的 scale 元数据。同时将基座模型的所有requires_grad设为False完全冻结。2前向传播按需解压计算某一层时将该层对应的 4-bit 索引临时反量化回 BF16/FP16。操作是查 NF4 格点表得到浮点数再乘以该块存好的scale即X_deq grid[idx] * scale。注意是一次解压一层算完立刻丢弃临时的 FP16 张量显存里永远只躺着 4-bit 压缩态。双轨计算基座支路h_base W_dequantized xLoRA 支路h_lora (B A) xA、B 为 BF16/FP16 全精度可训练结果合并h_output h_base (alpha / r) * h_lora输出至下一层直至算出最终 Loss。3反向传播梯度截断由于基座W的requires_gradFalse框架不为其计算或存储梯度。即使 Loss 回传时数学上存在梯度也会被直接丢弃Detach。仅更新适配器梯度仅流经 LoRA 支路计算出dA和dB优化器如 Paged AdamW仅更新A和B的权重基座W完全纹丝不动。4迭代循环基座恒冻每一轮迭代基座模型始终维持那份初始的 4-bit 压缩状态量化格点和scale固定不变。适配器演进只有全精度的 LoRA 矩阵A和B在梯度下降中逐步优化适应下游任务。