GQA为何能让Llama 2推理速度翻倍:从MHA到MQA的注意力架构演进

2019年,Noam Shazeer在Google发表了一篇仅4页的论文,标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案:让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍,推理速度提升了10倍以上。 ...

10 min · 4906 words

为什么大模型能压缩到原来的1/4却几乎不损失性能:量化技术的数学真相

2022年,GPTQ论文报告了一个令人惊讶的结果:将OPT-175B模型从FP16量化到INT4后,困惑度从8.34上升到8.37,增幅仅为0.36%。这意味着将模型体积压缩75%,性能几乎不损失。 ...

15 min · 7371 words