QLoRA

参数高效微调：为什么0.1%的参数能做到全参数微调99%的效果

2021年，微软的研究团队提出了一个看似不可能的假设：如果预训练模型学到的知识实际上只存在于一个极低维的子空间中，那么微调是否只需要更新这个子空间就足够了？ ...

量化训练为何能用8位精度完成模型学习从数值稳定性到误差补偿的数学原理

2023年10月，一篇名为 FP8-LM 的论文在 arXiv 上发布，研究团队用8位浮点数完成了 GPT-175B 的训练——内存占用减少39%，训练速度提升75%。这并非孤例，QLoRA 更是将模型压缩到4位，却依然保持着与16位训练相当的微调效果。这些数字背后的数学原理，揭示了深度学习一个反直觉的特性：神经网络对数值精度的要求，远比我们想象的要低。 ...

LoRA低秩适配为何能以千分之一参数量实现高效微调

一个拥有1750亿参数的语言模型，微调时只需训练不到2000万参数——这听起来像是天方夜谭，但微软研究院在2021年发表的论文让这个"魔术"变成了现实。 ...