Layer Normalization的可学习参数:为什么gamma和beta正在从大模型中消失

Layer Normalization的可学习参数:为什么gamma和beta正在从大模型中消失 2016年,Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在论文《Layer Normalization》中提出了一个看似简单的设计:在归一化操作后添加两个可学习参数gamma和beta。九年后的今天,LLaMA、Mistral、Gemma等主流大模型都在悄悄移除这些参数——或者至少移除其中一部分。这个趋势背后隐藏着怎样的技术逻辑? ...

13 min · 6440 words

大模型为何读不懂"不"字:从注意力机制到训练数据的否定词困境

当你告诉大模型"不要在代码中使用eval函数",它偏偏生成了包含eval的代码;当你问"哪些水果不是红色的",它列出了红苹果和草莓。这不是个例,而是一个困扰了自然语言处理领域十年的顽疾。 ...

17 min · 8331 words

Transformer参数量计算:从Embedding到FFN的完整公式推导

引言:1750亿参数从何而来? 当你看到"GPT-3有1750亿参数"、“LLaMA 7B”、“Claude 100K上下文"这样的描述时,你是否想过:这1750亿参数到底是怎么算出来的?它们分别存储在模型的哪些部分? ...

18 min · 8531 words

序列到序列学习的二十年演进:从统计方法到Transformer的革命

2016年9月,Google宣布将生产环境的翻译系统从基于短语的统计机器翻译全面切换到神经机器翻译。这个决定背后,是近二十年序列建模技术的积累与突破。从IBM的统计翻译模型,到Sutskever等人的LSTM Seq2Seq,再到Bahdanau的注意力机制,最终汇聚成Transformer这一改变NLP格局的架构。理解这段演进历程,不仅能帮助我们把握技术脉络,更能看清现代大语言模型处理序列任务的设计哲学。 ...

5 min · 2442 words

Softmax的数值稳定性:为什么一行简单的代码能让训练崩溃

你花了数天清洗数据,精心调参,终于启动了训练。Loss曲线漂亮地下降,一切似乎都很顺利。突然,屏幕上跳出一个刺眼的 nan——整个训练过程在瞬间崩溃。 ...

15 min · 7071 words

Self-Attention计算全解:从矩阵乘法到梯度流动的完整技术解析

2017年,Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这个标题本身就是一个宣言:注意力机制不再需要循环神经网络或卷积神经网络的辅助,它足以独立承担序列建模的全部任务。 ...

17 min · 8037 words

对比学习如何用"比较"重构神经网络的表示能力

2018年,OpenAI的研究员Alec Radford正在思考一个问题:如何让神经网络理解图像和文本之间的关系,而不需要人工标注的百万级训练数据?传统的监督学习范式需要告诉模型"这是一只猫"、“那是一辆车”,但人类学习概念的方式似乎并非如此。我们通过比较和对比来理解世界——知道什么相似,什么不同,什么属于同一类别,什么截然相反。 ...

17 min · 8021 words