RAG检索为何频频失准:从向量空间的数学局限到语义鸿沟的技术突围

一个法律科技团队花了六个月搭建的RAG系统,在内部测试中表现完美——准确率超过90%。但上线第一周,用户投诉就涌了进来:系统检索到的条款总是"差那么一点"。问的是"合同解除后赔偿如何计算",返回的却是"合同解除的条件有哪些";问的是"违约金上限",拿到的却是"定金与违约金的区别"。 ...

9 min · 4353 words

为什么大模型能从几个例子中学会新任务:从隐式梯度下降到Induction Head的技术解密

2020年5月,OpenAI发布了GPT-3。论文中有一个让研究社区困惑不已的发现:这个拥有1750亿参数的模型,竟然能在没有任何参数更新的情况下,仅凭输入中提供的几个示例,就学会完成全新的任务。 ...

10 min · 4967 words

HNSW:为什么这个图算法正在统治AI时代的向量检索

2016年3月,Yury Malkov和Dmitry Yashunin在arXiv上发表了一篇题为《Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs》的论文。这篇论文提出的HNSW算法,在随后的几年里成为了几乎所有主流向量数据库的核心索引——Elasticsearch、Milvus、Pinecone、Weaviate、Qdrant无一例外。 ...

13 min · 6304 words

为什么大模型能压缩到原来的1/4却几乎不损失性能:量化技术的数学真相

2022年,GPTQ论文报告了一个令人惊讶的结果:将OPT-175B模型从FP16量化到INT4后,困惑度从8.34上升到8.37,增幅仅为0.36%。这意味着将模型体积压缩75%,性能几乎不损失。 ...

15 min · 7371 words

为什么千亿参数的模型只需激活百亿?MoE架构的三十年技术突围

2024年12月,DeepSeek团队发布了一组令人困惑的数字:DeepSeek-V3拥有6710亿参数,但每个token实际只激活370亿参数。这意味着超过94%的参数在任何时刻都处于"休眠"状态。 ...

14 min · 6754 words

大模型为什么会编造事实:从统计本质到检测缓解的技术全景

2023年,一位美国律师使用ChatGPT查找法律判例,结果在法庭上提交了六个完全不存在的案例。法官在裁决书中写道:“这些案例是’幻觉’的产物。“这不是一个孤立的案例。从医疗诊断到金融分析,从学术研究到法律咨询,大模型的幻觉问题正在成为AI落地应用的最大障碍。 ...

13 min · 6107 words

大模型为什么会产生涌现能力?从Scaling Laws到相变理论的科学解密

2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。 ...

13 min · 6319 words