偏置项的消亡:为什么现代大模型删除了这个看似必不可少的参数

一个反直觉的设计选择 如果你在2018年告诉一个深度学习研究者,未来最先进的大语言模型会删除所有线性层的偏置项,他们可能会觉得你疯了。毕竟,偏置项是神经网络最基础的组成部分之一——从单层感知机到深度卷积网络,几乎每一个神经元的输出都包含一个偏置参数。 ...

16 min · 7674 words

LSTM长短期记忆网络:为什么这个门控机制统治了序列建模二十年

引言:序列建模的至暗时刻 1997年,当Sepp Hochreiter和Jürgen Schmidhuber在《Neural Computation》期刊上发表那篇改变深度学习历史的论文时,他们解决的是一个困扰研究者多年的根本性问题:循环神经网络(RNN)无法学习长期依赖。 ...

17 min · 8093 words

模型权重文件的存储格式:从Pickle的安全漏洞到Safetensors的演进

当你在Hugging Face上下载一个预训练模型时,你有没有想过这个文件里究竟包含了什么?当你用torch.load()加载一个.pt文件时,你的计算机正在执行什么操作?为什么Hugging Face现在强烈推荐使用.safetensors格式而不是传统的PyTorch格式?这些看似简单的文件格式问题,实际上牵涉到深度学习领域最核心的安全与技术权衡。 ...

12 min · 5914 words

Hidden State:Transformer如何在层层传递中「理解」语言

输入一段文本,Transformer把它变成一串向量——这个过程看似简单,背后却隐藏着一个精妙的信息加工流水线。每个Token在每个Transformer层都有一个对应的Hidden State(隐藏状态),这个向量不是静态的词嵌入,而是在网络的层层传递中不断被重塑、被丰富、被"理解"的动态表示。 ...

17 min · 8017 words

过拟合、欠拟合与偏差-方差权衡:机器学习最核心困境的完整解析

训练一个机器学习模型时,最令人沮丧的场景莫过于:训练集上的准确率高达 99%,但在测试集上却跌落到 60%。这不是代码 bug,也不是数据问题——这是机器学习最核心的困境:过拟合(Overfitting)。 ...

15 min · 7498 words

隐藏层维度:为什么这个数字决定了大模型的能力边界

打开任何一个大模型的配置文件,你总能看到一些神秘的数字:BERT的768,GPT-2的1024,LLaMA-7B的4096,GPT-3的12288。这些数字从何而来?为什么不是769或4095?为什么LLaMA选择4096而GPT-3选择12288?更关键的是,这个被称为"隐藏层维度"或"隐藏尺寸"的参数,究竟如何影响模型的能力边界? ...

16 min · 7669 words

神经网络中的偏置:为什么简单的加法如此重要

打开任何一本深度学习教材,翻开任何一篇讲解神经网络的博客,你都会看到神经元的基本公式: $$y = \sigma(Wx + b)$$其中 $W$ 是权重矩阵,$x$ 是输入,$\sigma$ 是激活函数,而 $b$ 就是那个不起眼的偏置(bias)。它看起来只是一个简单的加法,一个向量加法操作,却困扰了无数初学者:为什么需要它?它到底在做什么?为什么有些现代大模型(如LLaMA)会把它删掉? ...

19 min · 9053 words