LoRA | Answer

参数高效微调：为什么0.1%的参数能做到全参数微调99%的效果

2021年，微软的研究团队提出了一个看似不可能的假设：如果预训练模型学到的知识实际上只存在于一个极低维的子空间中，那么微调是否只需要更新这个子空间就足够了？ ...

为什么神经网络学会了新知识就会忘记旧知识：从灾难性遗忘到持续学习的技术突围

1989年，心理学家Michael McCloskey和Neal Cohen做了一个看似简单的实验：让一个三层神经网络先学会做一组加减法题目，再学习另一组。结果令人震惊——当网络掌握了第二组题目后，对第一组的正确率从接近100%暴跌到10%以下。他们给这种现象起了一个名字：灾难性干扰（Catastrophic Interference），后来更常被称为灾难性遗忘。 ...

LoRA低秩适配为何能以千分之一参数量实现高效微调

一个拥有1750亿参数的语言模型，微调时只需训练不到2000万参数——这听起来像是天方夜谭，但微软研究院在2021年发表的论文让这个"魔术"变成了现实。 ...