PaLM | Answer

偏置项的消亡：为什么现代大模型删除了这个看似必不可少的参数

一个反直觉的设计选择如果你在2018年告诉一个深度学习研究者，未来最先进的大语言模型会删除所有线性层的偏置项，他们可能会觉得你疯了。毕竟，偏置项是神经网络最基础的组成部分之一——从单层感知机到深度卷积网络，几乎每一个神经元的输出都包含一个偏置参数。 ...

2022年，Google Research的研究者们做了一个看似简单的实验：让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型，准确率几乎为零；但当参数量突破某个临界点后，准确率突然飙升到80%以上。 ...