滑动窗口注意力:为什么一个「局部窗口」能看完全局信息?
2023年9月,Mistral AI发布了一款仅有73亿参数的模型,却在几乎所有基准测试上超越了拥有130亿参数的LLaMA 2。这个令人意外的结果背后,一个关键技术就是滑动窗口注意力(Sliding Window Attention,SWA)。 ...
2023年9月,Mistral AI发布了一款仅有73亿参数的模型,却在几乎所有基准测试上超越了拥有130亿参数的LLaMA 2。这个令人意外的结果背后,一个关键技术就是滑动窗口注意力(Sliding Window Attention,SWA)。 ...
2019年,Noam Shazeer在Google发表了一篇仅4页的论文,标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案:让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍,推理速度提升了10倍以上。 ...