AI | Answer

相对位置偏置如何改变Transformer的序列理解能力：从Shaw到ALiBi的七年技术演进

2017年，Vaswani等人在《Attention Is All You Need》中提出了Transformer架构，用纯粹的注意力机制取代了循环神经网络。然而，这个革命性的架构有一个致命缺陷：自注意力机制天生不知道顺序。 ...

从输入文本到输出：大模型推理的完整流程解析

当你向一个大语言模型输入"今天天气怎么样"，它在毫秒级别内就能返回一段流畅的回答。这个过程看似简单，背后却隐藏着一套精密的计算流程。输入的文本经历了分词、嵌入、多层Transformer处理、概率计算、采样选择等多个阶段，最终才能生成你所看到的每一个字符。 ...

梯度裁剪：为什么这个"简单"技巧能拯救你的深度学习模型

训练大语言模型时，你是否遇到过这样的情况：损失函数曲线突然出现莫名其妙的尖峰，模型仿佛"失忆"了一般，之前学到的知识瞬间消失？或者在训练循环神经网络时，梯度变成了NaN，整个训练过程直接崩溃？这些问题的背后，往往隐藏着一个共同的罪魁祸首——梯度爆炸。 ...

自注意力与交叉注意力：Transformer如何用两种机制处理「同一序列」与「两个世界」

2017年，Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这篇论文的核心洞察可以用一句话概括：循环神经网络并非处理序列数据的唯一途径，注意力机制本身就足够了。 ...

为什么大模型连两位数加法都算不准：从tokenization到启发式神经元的完整技术解析

2024年7月，一个简单的问题让全球十二个主流大模型中的八个栽了跟头：9.11和9.9哪个大？这不是孤例。同样的问题还有：247 × 389等于多少？8743 + 3927呢？如果你尝试让ChatGPT、Claude或其他大模型直接计算这些数字，得到的答案往往令人哭笑不得——要么差几位数，要么完全离谱。 ...

大模型的Padding陷阱：为什么Decoder推理必须左填充，而BERT却用右填充？

在处理变长序列时，padding是一个看似简单却暗藏玄机的预处理步骤。许多开发者在从BERT迁移到GPT风格模型时，都会遇到一个令人困惑的问题：同样的数据预处理流程，为什么在BERT上工作正常，在LLaMA上却产生荒谬的输出？答案藏在decoder-only架构的生成机制中。 ...

KV Cache：为什么这个"缓存"决定了大模型推理的速度和成本

你有没有想过，为什么大模型生成第一个字需要几秒钟，但后续的字却快得多？为什么同样的模型，处理1000字的上下文比处理100字消耗更多显存？为什么有些70B参数的模型反而比7B模型的KV缓存更小？ ...