RAG | Answer

大模型的上下文窗口：从Token限制到有效上下文管理的完整解析

大模型的上下文窗口：从Token限制到有效上下文管理的完整解析当你向一个语言模型发送请求时，你有没有想过：为什么有些模型只能处理几千字，而有些却能吞下整本书？为什么即便模型声称支持128K上下文，你的长文档问答效果却时好时坏？为什么同样的提示词放在文档开头和中间，模型的回答准确率会相差几十个百分点？ ...

向量嵌入：从离散符号到连续语义空间的数学革命

搜索"如何学习编程"和"编程入门方法"，传统关键词匹配系统会认为这两个查询毫无关系——它们没有共享任何关键词。但人类一眼就能看出这是同一类问题。这个鸿沟困扰了信息检索领域数十年，直到向量嵌入技术给出了一个优雅的数学答案：把文字映射到连续向量空间，让语义相似的文本在几何空间中靠近。 ...

RAG重排序：为什么多花几毫秒能让检索准确率提升40%

2023年，一篇来自斯坦福大学的研究揭示了一个令人深思的现象：当大语言模型的上下文窗口被大量文档填充时，模型从中间位置检索信息的能力反而不如不提供任何上下文时——这就是著名的"Lost in the Middle"效应。这个发现直接击中了RAG系统的软肋：如果我们为了提高召回率而返回更多文档，却反而降低了LLM的推理质量，那这个权衡还有什么意义？ ...

为什么大模型记不住之前的对话——从无状态推理到长期记忆架构的技术突围

你有没有这样的经历：和一个AI助手聊了很久，详细告诉它你的饮食偏好、工作习惯、兴趣爱好，几周后再打开对话，它却像第一次认识你一样，问你是不是素食者——明明你上次已经说过不下三次。这不是AI"健忘"，而是它从未真正"记住"过任何东西。 ...

RAG检索为何频频失准：从向量空间的数学局限到语义鸿沟的技术突围

一个法律科技团队花了六个月搭建的RAG系统，在内部测试中表现完美——准确率超过90%。但上线第一周，用户投诉就涌了进来：系统检索到的条款总是"差那么一点"。问的是"合同解除后赔偿如何计算"，返回的却是"合同解除的条件有哪些"；问的是"违约金上限"，拿到的却是"定金与违约金的区别"。 ...

HNSW：为什么这个图算法正在统治AI时代的向量检索

2016年3月，Yury Malkov和Dmitry Yashunin在arXiv上发表了一篇题为《Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs》的论文。这篇论文提出的HNSW算法，在随后的几年里成为了几乎所有主流向量数据库的核心索引——Elasticsearch、Milvus、Pinecone、Weaviate、Qdrant无一例外。 ...

大模型为什么会编造事实：从统计本质到检测缓解的技术全景

2023年，一位美国律师使用ChatGPT查找法律判例，结果在法庭上提交了六个完全不存在的案例。法官在裁决书中写道：“这些案例是’幻觉’的产物。“这不是一个孤立的案例。从医疗诊断到金融分析，从学术研究到法律咨询，大模型的幻觉问题正在成为AI落地应用的最大障碍。 ...