AI | Answer

Tokenizer 如何塑造大语言模型的世界观：从 BPE 到 Byte Latent Transformer 的三十年技术演进

1994年2月，Philip Gage在《C Users Journal》上发表了一篇题为"A New Algorithm for Data Compression"的文章。这位程序员的初衷很简单：找到一种更高效的方式来压缩数据。他没有想到，三十年后，他发明的Byte Pair Encoding（BPE）算法会成为让ChatGPT、Claude、LLaMA等大语言模型理解人类语言的第一道关卡。 ...

大模型如何评估：从标准化考试到人类偏好的完整技术解析

当一个新的大模型发布时，我们如何判断它到底有多强？模型技术报告上那些眼花缭乱的数字——MMLU 92%、GSM8K 95%、HumanEval 88%——究竟意味着什么？为什么一个在基准测试中表现优异的模型，实际使用时却常常令人失望？ ...

大模型如何"看"图像：从CLIP对比学习到视觉语言模型的跨模态融合之路

2024年5月，OpenAI发布GPT-4o，这个模型能实时"看"你手机屏幕上的内容并回答问题。对着一张复杂的电路图问"这个电阻的阻值是多少"，它能准确定位并读出数值；给它一张手绘的流程图，它能理解逻辑关系并生成代码实现。 ...

向量嵌入：从离散符号到连续语义空间的数学革命

搜索"如何学习编程"和"编程入门方法"，传统关键词匹配系统会认为这两个查询毫无关系——它们没有共享任何关键词。但人类一眼就能看出这是同一类问题。这个鸿沟困扰了信息检索领域数十年，直到向量嵌入技术给出了一个优雅的数学答案：把文字映射到连续向量空间，让语义相似的文本在几何空间中靠近。 ...

大模型推理为什么第一个 Token 总是很慢：从 Prefill 到 Decode 的完整技术解析

当你向一个大语言模型发送请求时，可能会注意到一个有趣的现象：第一个字蹦出来总是慢半拍，但随后的字却如流水般涌出。这种"先慢后快"的节奏并非偶然，而是大模型推理机制的根本特性。 ...

大模型参数量与计算量：从Transformer架构到FLOPs计算的完整解析

当GPT-3在2020年问世时，其1750亿参数的规模震惊了整个AI界。三年后，LLaMA-70B用更少的参数达到了更好的效果。到了2024年，DeepSeek-V3以6710亿总参数但仅激活370亿参数的MoE架构重新定义了效率边界。这些数字背后隐藏着一套精确的数学逻辑——参数量如何决定计算量，计算量如何影响训练成本，以及如何在有限的算力预算下设计最优模型。 ...

向量数据库的量化压缩：从Product Quantization到RaBitQ的二十年技术博弈

一台配备64GB内存的服务器，要索引十亿个768维的向量，需要多少存储空间？答案是超过3TB。而标准的内存索引方案，比如HNSW，要求将所有数据加载到内存中才能保证查询延迟在毫秒级。这意味着，即使是企业级的服务器，也无法在单机上完成这项任务。云服务器的内存按GB计费，3TB内存的月成本可能高达数千美元——这才是向量数据库规模化部署面临的真正瓶颈。 ...