Tokenizer 如何塑造大语言模型的世界观:从 BPE 到 Byte Latent Transformer 的三十年技术演进

1994年2月,Philip Gage在《C Users Journal》上发表了一篇题为"A New Algorithm for Data Compression"的文章。这位程序员的初衷很简单:找到一种更高效的方式来压缩数据。他没有想到,三十年后,他发明的Byte Pair Encoding(BPE)算法会成为让ChatGPT、Claude、LLaMA等大语言模型理解人类语言的第一道关卡。 ...

15 min · 7293 words

大模型如何评估:从标准化考试到人类偏好的完整技术解析

当一个新的大模型发布时,我们如何判断它到底有多强? 模型技术报告上那些眼花缭乱的数字——MMLU 92%、GSM8K 95%、HumanEval 88%——究竟意味着什么?为什么一个在基准测试中表现优异的模型,实际使用时却常常令人失望? ...

13 min · 6105 words
Blog Cover

大模型如何"看"图像:从CLIP对比学习到视觉语言模型的跨模态融合之路

2024年5月,OpenAI发布GPT-4o,这个模型能实时"看"你手机屏幕上的内容并回答问题。对着一张复杂的电路图问"这个电阻的阻值是多少",它能准确定位并读出数值;给它一张手绘的流程图,它能理解逻辑关系并生成代码实现。 ...

20 min · 9741 words

向量嵌入:从离散符号到连续语义空间的数学革命

搜索"如何学习编程"和"编程入门方法",传统关键词匹配系统会认为这两个查询毫无关系——它们没有共享任何关键词。但人类一眼就能看出这是同一类问题。这个鸿沟困扰了信息检索领域数十年,直到向量嵌入技术给出了一个优雅的数学答案:把文字映射到连续向量空间,让语义相似的文本在几何空间中靠近。 ...

21 min · 10101 words

大模型推理为什么第一个 Token 总是很慢:从 Prefill 到 Decode 的完整技术解析

当你向一个大语言模型发送请求时,可能会注意到一个有趣的现象:第一个字蹦出来总是慢半拍,但随后的字却如流水般涌出。这种"先慢后快"的节奏并非偶然,而是大模型推理机制的根本特性。 ...

10 min · 5000 words

大模型参数量与计算量:从Transformer架构到FLOPs计算的完整解析

当GPT-3在2020年问世时,其1750亿参数的规模震惊了整个AI界。三年后,LLaMA-70B用更少的参数达到了更好的效果。到了2024年,DeepSeek-V3以6710亿总参数但仅激活370亿参数的MoE架构重新定义了效率边界。这些数字背后隐藏着一套精确的数学逻辑——参数量如何决定计算量,计算量如何影响训练成本,以及如何在有限的算力预算下设计最优模型。 ...

16 min · 7548 words

向量数据库的量化压缩:从Product Quantization到RaBitQ的二十年技术博弈

一台配备64GB内存的服务器,要索引十亿个768维的向量,需要多少存储空间? 答案是超过3TB。而标准的内存索引方案,比如HNSW,要求将所有数据加载到内存中才能保证查询延迟在毫秒级。这意味着,即使是企业级的服务器,也无法在单机上完成这项任务。云服务器的内存按GB计费,3TB内存的月成本可能高达数千美元——这才是向量数据库规模化部署面临的真正瓶颈。 ...

14 min · 6556 words