语言模型的概率本质:从条件概率到下一个词预测的数学之旅

从一个预测游戏说起 当我们在说话或写作时,大脑在不停地进行一个预测游戏:根据已经说出的内容,预测下一个最可能出现的词。这个看似简单的认知过程,恰恰是现代大语言模型的核心工作原理。 ...

21 min · 10236 words

EOS Token:为什么这个特殊标记决定了大模型的说话边界

当你在 ChatGPT 中输入一个问题,模型生成一段流畅的回答后优雅地停下——这个看似简单的"停止"动作背后,隐藏着一个被大多数人忽视却至关重要的机制:EOS Token。这个特殊的词汇表条目,像一个隐形的句号,决定了大模型何时该闭嘴。 ...

17 min · 8401 words

FFN如何成为大模型的"知识仓库":从键值存储到知识编辑的技术真相

当GPT-4被问到"法国的首都是哪里"时,它能准确回答"巴黎"。这个看似简单的过程背后,隐藏着一个深刻的问题:大模型是如何"记住"这些事实的?是参数随机分布,还是有组织的存储? ...

11 min · 5480 words

从输入文本到输出:大模型推理的完整流程解析

当你向一个大语言模型输入"今天天气怎么样",它在毫秒级别内就能返回一段流畅的回答。这个过程看似简单,背后却隐藏着一套精密的计算流程。输入的文本经历了分词、嵌入、多层Transformer处理、概率计算、采样选择等多个阶段,最终才能生成你所看到的每一个字符。 ...

9 min · 4104 words

参数高效微调:为什么0.1%的参数能做到全参数微调99%的效果

2021年,微软的研究团队提出了一个看似不可能的假设:如果预训练模型学到的知识实际上只存在于一个极低维的子空间中,那么微调是否只需要更新这个子空间就足够了? ...

14 min · 6798 words

自注意力与交叉注意力:Transformer如何用两种机制处理「同一序列」与「两个世界」

2017年,Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这篇论文的核心洞察可以用一句话概括:循环神经网络并非处理序列数据的唯一途径,注意力机制本身就足够了。 ...

17 min · 8389 words

为什么大模型连两位数加法都算不准:从tokenization到启发式神经元的完整技术解析

2024年7月,一个简单的问题让全球十二个主流大模型中的八个栽了跟头:9.11和9.9哪个大? 这不是孤例。同样的问题还有:247 × 389等于多少?8743 + 3927呢?如果你尝试让ChatGPT、Claude或其他大模型直接计算这些数字,得到的答案往往令人哭笑不得——要么差几位数,要么完全离谱。 ...

14 min · 6954 words