Mistral

滑动窗口注意力：为什么一个「局部窗口」能看完全局信息？

2023年9月，Mistral AI发布了一款仅有73亿参数的模型，却在几乎所有基准测试上超越了拥有130亿参数的LLaMA 2。这个令人意外的结果背后，一个关键技术就是滑动窗口注意力（Sliding Window Attention，SWA）。 ...

GQA为何能让Llama 2推理速度翻倍：从MHA到MQA的注意力架构演进

2019年，Noam Shazeer在Google发表了一篇仅4页的论文，标题是《Fast Transformer Decoding: One Write-Head is All You Need》。这篇论文提出了一个激进的方案：让所有注意力头共享同一组Key和Value。结果是KV Cache缩小了几十倍，推理速度提升了10倍以上。 ...