推理优化 on Answer

推理优化 on Answer https://answer.freetools.me/categories/%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96/ Recent content in 推理优化 on Answer Hugo -- 0.152.2 zh-cn Thu, 12 Mar 2026 22:19:43 +0800 大模型推理框架的技术博弈：从vLLM到TensorRT-LLM，解析三大框架的设计哲学与性能突围 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6%E7%9A%84%E6%8A%80%E6%9C%AF%E5%8D%9A%E5%BC%88%E4%BB%8Evllm%E5%88%B0tensorrt-llm%E8%A7%A3%E6%9E%90%E4%B8%89%E5%A4%A7%E6%A1%86%E6%9E%B6%E7%9A%84%E8%AE%BE%E8%AE%A1%E5%93%B2%E5%AD%A6%E4%B8%8E%E6%80%A7%E8%83%BD%E7%AA%81%E5%9B%B4/ Thu, 12 Mar 2026 22:19:43 +0800 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6%E7%9A%84%E6%8A%80%E6%9C%AF%E5%8D%9A%E5%BC%88%E4%BB%8Evllm%E5%88%B0tensorrt-llm%E8%A7%A3%E6%9E%90%E4%B8%89%E5%A4%A7%E6%A1%86%E6%9E%B6%E7%9A%84%E8%AE%BE%E8%AE%A1%E5%93%B2%E5%AD%A6%E4%B8%8E%E6%80%A7%E8%83%BD%E7%AA%81%E5%9B%B4/ 深度解析大模型推理框架的技术演进，从vLLM的PagedAttention到TensorRT-LLM的硬件极致优化，再到llama.cpp的跨平台哲学，揭示三大框架如何在内存管理、批处理策略、算子融合等维度进行技术博弈，以及如何根据业务场景做出正确选择。为何大模型总忽略中间内容：从Lost in the Middle到注意力盆地的技术解密 https://answer.freetools.me/%E4%B8%BA%E4%BD%95%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%80%BB%E5%BF%BD%E7%95%A5%E4%B8%AD%E9%97%B4%E5%86%85%E5%AE%B9%E4%BB%8Elost-in-the-middle%E5%88%B0%E6%B3%A8%E6%84%8F%E5%8A%9B%E7%9B%86%E5%9C%B0%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/ Mon, 09 Mar 2026 07:09:07 +0800 https://answer.freetools.me/%E4%B8%BA%E4%BD%95%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%80%BB%E5%BF%BD%E7%95%A5%E4%B8%AD%E9%97%B4%E5%86%85%E5%AE%B9%E4%BB%8Elost-in-the-middle%E5%88%B0%E6%B3%A8%E6%84%8F%E5%8A%9B%E7%9B%86%E5%9C%B0%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/ 深入解析大语言模型在长文本处理中忽略中间信息的深层机制。从Lost in the Middle现象的U形曲线出发，系统阐述注意力盆地现象、RoPE位置编码衰减、检索头与流式头的分类，以及AttnRank重排序、DuoAttention双模式优化等解决方案。涵盖2023-2025年最新研究成果，包括中山大学与MIT的核心论文发现。 Prefix Caching 如何让重复提示词在大模型推理中"零成本"通过 https://answer.freetools.me/prefix-caching-%E5%A6%82%E4%BD%95%E8%AE%A9%E9%87%8D%E5%A4%8D%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%9C%A8%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E4%B8%AD%E9%9B%B6%E6%88%90%E6%9C%AC%E9%80%9A%E8%BF%87/ Mon, 09 Mar 2026 07:03:42 +0800 https://answer.freetools.me/prefix-caching-%E5%A6%82%E4%BD%95%E8%AE%A9%E9%87%8D%E5%A4%8D%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%9C%A8%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E4%B8%AD%E9%9B%B6%E6%88%90%E6%9C%AC%E9%80%9A%E8%BF%87/ 深入解析大模型推理中的 Prefix Caching 技术。从 KV Cache 的工作原理出发，系统阐述 vLLM 的 Block-Level Hashing 与 SGLang 的 RadixAttention 两种技术流派，分析 OpenAI 与 Anthropic 的 Prompt Caching 商业化实践，探讨 NeurIPS 2025 论文提出的 Learned Prefix Caching 智能淘汰策略，并提供提示词设计优化指南。涵盖缓存命中率、TTFT 降低 80%、成本节省 90% 等核心性能数据。