Transformer参数量计算:从Embedding到FFN的完整公式推导

引言:1750亿参数从何而来? 当你看到"GPT-3有1750亿参数"、“LLaMA 7B”、“Claude 100K上下文"这样的描述时,你是否想过:这1750亿参数到底是怎么算出来的?它们分别存储在模型的哪些部分? ...

18 min · 8531 words

序列到序列学习的二十年演进:从统计方法到Transformer的革命

2016年9月,Google宣布将生产环境的翻译系统从基于短语的统计机器翻译全面切换到神经机器翻译。这个决定背后,是近二十年序列建模技术的积累与突破。从IBM的统计翻译模型,到Sutskever等人的LSTM Seq2Seq,再到Bahdanau的注意力机制,最终汇聚成Transformer这一改变NLP格局的架构。理解这段演进历程,不仅能帮助我们把握技术脉络,更能看清现代大语言模型处理序列任务的设计哲学。 ...

5 min · 2442 words

Self-Attention计算全解:从矩阵乘法到梯度流动的完整技术解析

2017年,Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这个标题本身就是一个宣言:注意力机制不再需要循环神经网络或卷积神经网络的辅助,它足以独立承担序列建模的全部任务。 ...

17 min · 8037 words

位置编码外推性:为什么Transformer无法处理比训练时更长的序列

一个被忽视的基本问题 2017年,当Vaswani等人在论文《Attention is All You Need》中提出Transformer架构时,他们做出了一个看似合理的假设:模型应该能够外推到比训练时更长的序列。原论文中写道:“我们推测它可能外推到比训练时遇到的序列更长的序列。” ...

14 min · 6725 words

偏置项的消亡:为什么现代大模型删除了这个看似必不可少的参数

一个反直觉的设计选择 如果你在2018年告诉一个深度学习研究者,未来最先进的大语言模型会删除所有线性层的偏置项,他们可能会觉得你疯了。毕竟,偏置项是神经网络最基础的组成部分之一——从单层感知机到深度卷积网络,几乎每一个神经元的输出都包含一个偏置参数。 ...

16 min · 7674 words

LSTM长短期记忆网络:为什么这个门控机制统治了序列建模二十年

引言:序列建模的至暗时刻 1997年,当Sepp Hochreiter和Jürgen Schmidhuber在《Neural Computation》期刊上发表那篇改变深度学习历史的论文时,他们解决的是一个困扰研究者多年的根本性问题:循环神经网络(RNN)无法学习长期依赖。 ...

17 min · 8093 words

Hidden State:Transformer如何在层层传递中「理解」语言

输入一段文本,Transformer把它变成一串向量——这个过程看似简单,背后却隐藏着一个精妙的信息加工流水线。每个Token在每个Transformer层都有一个对应的Hidden State(隐藏状态),这个向量不是静态的词嵌入,而是在网络的层层传递中不断被重塑、被丰富、被"理解"的动态表示。 ...

17 min · 8017 words