<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>推理优化 on Answer</title>
    <link>https://answer.freetools.me/categories/%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96/</link>
    <description>Recent content in 推理优化 on Answer</description>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Thu, 12 Mar 2026 22:19:43 +0800</lastBuildDate>
    <atom:link href="https://answer.freetools.me/categories/%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>大模型推理框架的技术博弈：从vLLM到TensorRT-LLM，解析三大框架的设计哲学与性能突围</title>
      <link>https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6%E7%9A%84%E6%8A%80%E6%9C%AF%E5%8D%9A%E5%BC%88%E4%BB%8Evllm%E5%88%B0tensorrt-llm%E8%A7%A3%E6%9E%90%E4%B8%89%E5%A4%A7%E6%A1%86%E6%9E%B6%E7%9A%84%E8%AE%BE%E8%AE%A1%E5%93%B2%E5%AD%A6%E4%B8%8E%E6%80%A7%E8%83%BD%E7%AA%81%E5%9B%B4/</link>
      <pubDate>Thu, 12 Mar 2026 22:19:43 +0800</pubDate>
      <guid>https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6%E7%9A%84%E6%8A%80%E6%9C%AF%E5%8D%9A%E5%BC%88%E4%BB%8Evllm%E5%88%B0tensorrt-llm%E8%A7%A3%E6%9E%90%E4%B8%89%E5%A4%A7%E6%A1%86%E6%9E%B6%E7%9A%84%E8%AE%BE%E8%AE%A1%E5%93%B2%E5%AD%A6%E4%B8%8E%E6%80%A7%E8%83%BD%E7%AA%81%E5%9B%B4/</guid>
      <description>深度解析大模型推理框架的技术演进，从vLLM的PagedAttention到TensorRT-LLM的硬件极致优化，再到llama.cpp的跨平台哲学，揭示三大框架如何在内存管理、批处理策略、算子融合等维度进行技术博弈，以及如何根据业务场景做出正确选择。</description>
    </item>
    <item>
      <title>为何大模型总忽略中间内容：从Lost in the Middle到注意力盆地的技术解密</title>
      <link>https://answer.freetools.me/%E4%B8%BA%E4%BD%95%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%80%BB%E5%BF%BD%E7%95%A5%E4%B8%AD%E9%97%B4%E5%86%85%E5%AE%B9%E4%BB%8Elost-in-the-middle%E5%88%B0%E6%B3%A8%E6%84%8F%E5%8A%9B%E7%9B%86%E5%9C%B0%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/</link>
      <pubDate>Mon, 09 Mar 2026 07:09:07 +0800</pubDate>
      <guid>https://answer.freetools.me/%E4%B8%BA%E4%BD%95%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%80%BB%E5%BF%BD%E7%95%A5%E4%B8%AD%E9%97%B4%E5%86%85%E5%AE%B9%E4%BB%8Elost-in-the-middle%E5%88%B0%E6%B3%A8%E6%84%8F%E5%8A%9B%E7%9B%86%E5%9C%B0%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/</guid>
      <description>深入解析大语言模型在长文本处理中忽略中间信息的深层机制。从Lost in the Middle现象的U形曲线出发，系统阐述注意力盆地现象、RoPE位置编码衰减、检索头与流式头的分类，以及AttnRank重排序、DuoAttention双模式优化等解决方案。涵盖2023-2025年最新研究成果，包括中山大学与MIT的核心论文发现。</description>
    </item>
    <item>
      <title>Prefix Caching 如何让重复提示词在大模型推理中&#34;零成本&#34;通过</title>
      <link>https://answer.freetools.me/prefix-caching-%E5%A6%82%E4%BD%95%E8%AE%A9%E9%87%8D%E5%A4%8D%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%9C%A8%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E4%B8%AD%E9%9B%B6%E6%88%90%E6%9C%AC%E9%80%9A%E8%BF%87/</link>
      <pubDate>Mon, 09 Mar 2026 07:03:42 +0800</pubDate>
      <guid>https://answer.freetools.me/prefix-caching-%E5%A6%82%E4%BD%95%E8%AE%A9%E9%87%8D%E5%A4%8D%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%9C%A8%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E4%B8%AD%E9%9B%B6%E6%88%90%E6%9C%AC%E9%80%9A%E8%BF%87/</guid>
      <description>深入解析大模型推理中的 Prefix Caching 技术。从 KV Cache 的工作原理出发，系统阐述 vLLM 的 Block-Level Hashing 与 SGLang 的 RadixAttention 两种技术流派，分析 OpenAI 与 Anthropic 的 Prompt Caching 商业化实践，探讨 NeurIPS 2025 论文提出的 Learned Prefix Caching 智能淘汰策略，并提供提示词设计优化指南。涵盖缓存命中率、TTFT 降低 80%、成本节省 90% 等核心性能数据。</description>
    </item>
  </channel>
</rss>
