大模型架构

Layer Normalization的可学习参数：为什么gamma和beta正在从大模型中消失

Layer Normalization的可学习参数：为什么gamma和beta正在从大模型中消失 2016年，Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在论文《Layer Normalization》中提出了一个看似简单的设计：在归一化操作后添加两个可学习参数gamma和beta。九年后的今天，LLaMA、Mistral、Gemma等主流大模型都在悄悄移除这些参数——或者至少移除其中一部分。这个趋势背后隐藏着怎样的技术逻辑？ ...

偏置项的消亡：为什么现代大模型删除了这个看似必不可少的参数

一个反直觉的设计选择如果你在2018年告诉一个深度学习研究者，未来最先进的大语言模型会删除所有线性层的偏置项，他们可能会觉得你疯了。毕竟，偏置项是神经网络最基础的组成部分之一——从单层感知机到深度卷积网络，几乎每一个神经元的输出都包含一个偏置参数。 ...