大模型推理 on Answer

大模型推理 on Answer https://answer.freetools.me/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86/ Recent content in 大模型推理 on Answer Hugo -- 0.152.2 zh-cn Mon, 09 Mar 2026 07:49:36 +0800 KV Cache压缩如何让大模型突破百万token上下文——从Attention Sink到Heavy Hitter的技术突围 https://answer.freetools.me/kv-cache%E5%8E%8B%E7%BC%A9%E5%A6%82%E4%BD%95%E8%AE%A9%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%AA%81%E7%A0%B4%E7%99%BE%E4%B8%87token%E4%B8%8A%E4%B8%8B%E6%96%87%E4%BB%8Eattention-sink%E5%88%B0heavy-hitter%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ Mon, 09 Mar 2026 07:49:36 +0800 https://answer.freetools.me/kv-cache%E5%8E%8B%E7%BC%A9%E5%A6%82%E4%BD%95%E8%AE%A9%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%AA%81%E7%A0%B4%E7%99%BE%E4%B8%87token%E4%B8%8A%E4%B8%8B%E6%96%87%E4%BB%8Eattention-sink%E5%88%B0heavy-hitter%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ 深入解析KV Cache压缩技术如何突破大模型推理的内存瓶颈。从StreamingLLM的Attention Sink到H2O的Heavy Hitter，从KIVI的非对称量化到KVQuant的超低比特压缩，全面揭示这项决定大模型上下文长度的核心技术。 GPU显存为何总是不够用：从内存墙到KV Cache碎片化的技术突围 https://answer.freetools.me/gpu%E6%98%BE%E5%AD%98%E4%B8%BA%E4%BD%95%E6%80%BB%E6%98%AF%E4%B8%8D%E5%A4%9F%E7%94%A8%E4%BB%8E%E5%86%85%E5%AD%98%E5%A2%99%E5%88%B0kv-cache%E7%A2%8E%E7%89%87%E5%8C%96%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ Fri, 06 Mar 2026 22:30:03 +0800 https://answer.freetools.me/gpu%E6%98%BE%E5%AD%98%E4%B8%BA%E4%BD%95%E6%80%BB%E6%98%AF%E4%B8%8D%E5%A4%9F%E7%94%A8%E4%BB%8E%E5%86%85%E5%AD%98%E5%A2%99%E5%88%B0kv-cache%E7%A2%8E%E7%89%87%E5%8C%96%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ 深度解析GPU显存瓶颈的本质原因，从硬件层面的内存墙问题到软件层面的KV Cache管理困境，全面剖析PagedAttention、FlashAttention等突破性技术的原理与权衡。