LLM推理优化

2023年，MIT韩松实验室的研究团队在测试一个看似简单的问题时，发现了一个令人困惑的现象。他们尝试用滑动窗口来限制大模型的KV Cache大小——这是控制显存占用的标准做法。然而，当窗口滑动、第一个Token被踢出缓存时，模型不是逐渐变差，而是瞬间崩溃。 ...