模型压缩 | Answer

知识蒸馏：为什么大模型能教小模型学会本事

2015年3月，Geoffrey Hinton在arXiv上发表了一篇只有9页的论文，标题是《Distilling the Knowledge in a Neural Network》。这篇论文没有提出什么新的网络架构，也没有刷新任何榜单，却彻底改变了模型部署的游戏规则。 ...

为何4位量化能让70B模型塞进单张显卡：从数值表示到异常值处理的技术全解

一个70B参数的大语言模型，如果以FP16格式存储，需要140GB显存。NVIDIA A100只有80GB，H200也才141GB——这意味着推理一个70B模型，要么用多卡分布式，要么接受频繁的CPU-GPU数据交换。但2022年底开始，一种技术让同样大小的模型可以塞进消费级显卡：4位量化。 ...

神经网络剪枝为何难以落地从彩票假说到LLM稀疏化的三十年技术博弈

1990年，Yann LeCun发表了一篇题为《Optimal Brain Damage》的论文，提出了一个反直觉的发现：训练好的神经网络中，高达90%的参数可以被安全删除，而模型精度几乎不受影响。这篇文章开创了神经网络剪枝的研究领域，但三十多年后，这项技术仍然难以在实际部署中大规模应用。 ...

软标签的秘密：为什么知识蒸馏能让小模型拥有大智慧

2015年3月，Geoffrey Hinton在arXiv上发表了一篇看似不起眼的论文。标题是《Distilling the Knowledge in a Neural Network》，核心观点简洁得令人惊讶：大模型学到的"软"概率分布，比"硬"的分类标签包含更多信息。 ...

为什么大模型能压缩到原来的1/4却几乎不损失性能：量化技术的数学真相

2022年,GPTQ论文报告了一个令人惊讶的结果:将OPT-175B模型从FP16量化到INT4后,困惑度从8.34上升到8.37,增幅仅为0.36%。这意味着将模型体积压缩75%,性能几乎不损失。 ...