长上下文 on Answer

长上下文 on Answer https://answer.freetools.me/tags/%E9%95%BF%E4%B8%8A%E4%B8%8B%E6%96%87/ Recent content in 长上下文 on Answer Hugo -- 0.152.2 zh-cn Thu, 12 Mar 2026 06:59:41 +0800 滑动窗口注意力：为什么一个「局部窗口」能看完全局信息？ https://answer.freetools.me/%E6%BB%91%E5%8A%A8%E7%AA%97%E5%8F%A3%E6%B3%A8%E6%84%8F%E5%8A%9B%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%80%E4%B8%AA%E5%B1%80%E9%83%A8%E7%AA%97%E5%8F%A3%E8%83%BD%E7%9C%8B%E5%AE%8C%E5%85%A8%E5%B1%80%E4%BF%A1%E6%81%AF/ Thu, 12 Mar 2026 06:59:41 +0800 https://answer.freetools.me/%E6%BB%91%E5%8A%A8%E7%AA%97%E5%8F%A3%E6%B3%A8%E6%84%8F%E5%8A%9B%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%80%E4%B8%AA%E5%B1%80%E9%83%A8%E7%AA%97%E5%8F%A3%E8%83%BD%E7%9C%8B%E5%AE%8C%E5%85%A8%E5%B1%80%E4%BF%A1%E6%81%AF/ 从Mistral 7B到Qwen，滑动窗口注意力正在重塑大模型的长上下文处理能力。深入解析SWA如何将复杂度从O(n²)降到O(n)，揭示信息流动的数学本质，以及为什么理论感受野和有效感受野存在巨大差距。 KV Cache压缩如何让大模型突破百万token上下文——从Attention Sink到Heavy Hitter的技术突围 https://answer.freetools.me/kv-cache%E5%8E%8B%E7%BC%A9%E5%A6%82%E4%BD%95%E8%AE%A9%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%AA%81%E7%A0%B4%E7%99%BE%E4%B8%87token%E4%B8%8A%E4%B8%8B%E6%96%87%E4%BB%8Eattention-sink%E5%88%B0heavy-hitter%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ Mon, 09 Mar 2026 07:49:36 +0800 https://answer.freetools.me/kv-cache%E5%8E%8B%E7%BC%A9%E5%A6%82%E4%BD%95%E8%AE%A9%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%AA%81%E7%A0%B4%E7%99%BE%E4%B8%87token%E4%B8%8A%E4%B8%8B%E6%96%87%E4%BB%8Eattention-sink%E5%88%B0heavy-hitter%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ 深入解析KV Cache压缩技术如何突破大模型推理的内存瓶颈。从StreamingLLM的Attention Sink到H2O的Heavy Hitter，从KIVI的非对称量化到KVQuant的超低比特压缩，全面揭示这项决定大模型上下文长度的核心技术。为何大模型总忽略中间内容：从Lost in the Middle到注意力盆地的技术解密 https://answer.freetools.me/%E4%B8%BA%E4%BD%95%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%80%BB%E5%BF%BD%E7%95%A5%E4%B8%AD%E9%97%B4%E5%86%85%E5%AE%B9%E4%BB%8Elost-in-the-middle%E5%88%B0%E6%B3%A8%E6%84%8F%E5%8A%9B%E7%9B%86%E5%9C%B0%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/ Mon, 09 Mar 2026 07:09:07 +0800 https://answer.freetools.me/%E4%B8%BA%E4%BD%95%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%80%BB%E5%BF%BD%E7%95%A5%E4%B8%AD%E9%97%B4%E5%86%85%E5%AE%B9%E4%BB%8Elost-in-the-middle%E5%88%B0%E6%B3%A8%E6%84%8F%E5%8A%9B%E7%9B%86%E5%9C%B0%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/ 深入解析大语言模型在长文本处理中忽略中间信息的深层机制。从Lost in the Middle现象的U形曲线出发，系统阐述注意力盆地现象、RoPE位置编码衰减、检索头与流式头的分类，以及AttnRank重排序、DuoAttention双模式优化等解决方案。涵盖2023-2025年最新研究成果，包括中山大学与MIT的核心论文发现。测试时训练：当模型在推理阶段继续学习会发生什么 https://answer.freetools.me/%E6%B5%8B%E8%AF%95%E6%97%B6%E8%AE%AD%E7%BB%83%E5%BD%93%E6%A8%A1%E5%9E%8B%E5%9C%A8%E6%8E%A8%E7%90%86%E9%98%B6%E6%AE%B5%E7%BB%A7%E7%BB%AD%E5%AD%A6%E4%B9%A0%E4%BC%9A%E5%8F%91%E7%94%9F%E4%BB%80%E4%B9%88/ Mon, 09 Mar 2026 06:26:43 +0800 https://answer.freetools.me/%E6%B5%8B%E8%AF%95%E6%97%B6%E8%AE%AD%E7%BB%83%E5%BD%93%E6%A8%A1%E5%9E%8B%E5%9C%A8%E6%8E%A8%E7%90%86%E9%98%B6%E6%AE%B5%E7%BB%A7%E7%BB%AD%E5%AD%A6%E4%B9%A0%E4%BC%9A%E5%8F%91%E7%94%9F%E4%BB%80%E4%B9%88/ 深入解析Test-Time Training (TTT) 的核心原理与技术演进。从TTT层的隐藏状态即模型设计，到TTT-E2E的长上下文突破，再到TTT-Discover的科学发现能力，全面探讨测试时训练如何打破传统训练与推理的边界，让AI模型在推理过程中持续进化。第一个Token的隐形权力：Attention Sink如何拯救流式大模型 https://answer.freetools.me/%E7%AC%AC%E4%B8%80%E4%B8%AAtoken%E7%9A%84%E9%9A%90%E5%BD%A2%E6%9D%83%E5%8A%9Battention-sink%E5%A6%82%E4%BD%95%E6%8B%AF%E6%95%91%E6%B5%81%E5%BC%8F%E5%A4%A7%E6%A8%A1%E5%9E%8B/ Mon, 09 Mar 2026 05:46:41 +0800 https://answer.freetools.me/%E7%AC%AC%E4%B8%80%E4%B8%AAtoken%E7%9A%84%E9%9A%90%E5%BD%A2%E6%9D%83%E5%8A%9Battention-sink%E5%A6%82%E4%BD%95%E6%8B%AF%E6%95%91%E6%B5%81%E5%BC%8F%E5%A4%A7%E6%A8%A1%E5%9E%8B/ 深入解析大模型流式推理崩溃的根本原因。从Softmax归一化的数学约束到RoPE位置编码的几何特性，系统阐述Attention Sink现象的发现过程、数学原理与StreamingLLM解决方案。涵盖ICLR 2024/2025最新研究、Sigmoid Attention替代方案，以及vLLM等框架的工程实践。 Ring Attention如何让大模型突破百万Token上下文从环形通信到计算重叠的技术突围 https://answer.freetools.me/ring-attention%E5%A6%82%E4%BD%95%E8%AE%A9%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%AA%81%E7%A0%B4%E7%99%BE%E4%B8%87token%E4%B8%8A%E4%B8%8B%E6%96%87%E4%BB%8E%E7%8E%AF%E5%BD%A2%E9%80%9A%E4%BF%A1%E5%88%B0%E8%AE%A1%E7%AE%97%E9%87%8D%E5%8F%A0%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ Mon, 09 Mar 2026 05:30:47 +0800 https://answer.freetools.me/ring-attention%E5%A6%82%E4%BD%95%E8%AE%A9%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%AA%81%E7%A0%B4%E7%99%BE%E4%B8%87token%E4%B8%8A%E4%B8%8B%E6%96%87%E4%BB%8E%E7%8E%AF%E5%BD%A2%E9%80%9A%E4%BF%A1%E5%88%B0%E8%AE%A1%E7%AE%97%E9%87%8D%E5%8F%A0%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ 深入解析Ring Attention如何通过分布式计算突破GPU内存瓶颈，实现百万乃至千万级Token上下文训练。从Blockwise Parallel Transformer的基础原理出发，系统阐述Online Softmax的分块计算、环形拓扑的通信计算重叠、Striped Attention的负载均衡优化，以及在World Model和长上下文LLM中的实际应用。涵盖内存复杂度分析、最小序列长度要求、NVLink/InfiniBand带宽约束，以及与DeepSpeed Ulysses、All-Gather等方案的工程对比。位置编码的二十年演进：从Sinusoidal到RoPE，Transformer如何理解「位置」 https://answer.freetools.me/%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81%E7%9A%84%E4%BA%8C%E5%8D%81%E5%B9%B4%E6%BC%94%E8%BF%9B%E4%BB%8Esinusoidal%E5%88%B0ropetransformer%E5%A6%82%E4%BD%95%E7%90%86%E8%A7%A3%E4%BD%8D%E7%BD%AE/ Mon, 09 Mar 2026 05:07:24 +0800 https://answer.freetools.me/%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81%E7%9A%84%E4%BA%8C%E5%8D%81%E5%B9%B4%E6%BC%94%E8%BF%9B%E4%BB%8Esinusoidal%E5%88%B0ropetransformer%E5%A6%82%E4%BD%95%E7%90%86%E8%A7%A3%E4%BD%8D%E7%BD%AE/ 深入解析Transformer位置编码的技术演进。从Sinusoidal的三角函数设计，到相对位置编码的范式转换，再到RoPE复数旋转的数学之美，以及ALiBi的长序列外推能力。涵盖各大模型的位置编码选择、YaRN长上下文扩展技术、Llama 4的iRoPE创新，以及实践中的选择指南。为什么大模型读不完一本书——从注意力机制到长上下文突围的技术全景 https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AF%BB%E4%B8%8D%E5%AE%8C%E4%B8%80%E6%9C%AC%E4%B9%A6%E4%BB%8E%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E5%88%B0%E9%95%BF%E4%B8%8A%E4%B8%8B%E6%96%87%E7%AA%81%E5%9B%B4%E7%9A%84%E6%8A%80%E6%9C%AF%E5%85%A8%E6%99%AF/ Mon, 09 Mar 2026 03:24:12 +0800 https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AF%BB%E4%B8%8D%E5%AE%8C%E4%B8%80%E6%9C%AC%E4%B9%A6%E4%BB%8E%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E5%88%B0%E9%95%BF%E4%B8%8A%E4%B8%8B%E6%96%87%E7%AA%81%E5%9B%B4%E7%9A%84%E6%8A%80%E6%9C%AF%E5%85%A8%E6%99%AF/ 深入解析大模型上下文长度限制的技术根源，从注意力机制的O(n²)复杂度瓶颈，到位置编码的外推困境，再到PI、NTK、YaRN、LongRoPE等突破方案的技术演进全景。当注意力成为瓶颈：从O(n²)困境到线性复杂度的技术突围 https://answer.freetools.me/%E5%BD%93%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%88%90%E4%B8%BA%E7%93%B6%E9%A2%88%E4%BB%8Eon%E5%9B%B0%E5%A2%83%E5%88%B0%E7%BA%BF%E6%80%A7%E5%A4%8D%E6%9D%82%E5%BA%A6%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ Sun, 08 Mar 2026 13:20:50 +0800 https://answer.freetools.me/%E5%BD%93%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%88%90%E4%B8%BA%E7%93%B6%E9%A2%88%E4%BB%8Eon%E5%9B%B0%E5%A2%83%E5%88%B0%E7%BA%BF%E6%80%A7%E5%A4%8D%E6%9D%82%E5%BA%A6%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ 深入解析Transformer注意力机制的计算复杂度瓶颈及其优化方案。从2017年原始Transformer的O(n²)复杂度，到Flash Attention的IO感知优化、Performer的线性注意力、Ring Attention的分布式方案，系统阐述各技术路径的原理、权衡与实际应用。涵盖GPU内存层次结构、稀疏注意力、MQA/GQA等关键优化策略，以及长上下文扩展的技术演进。