Hidden State:Transformer如何在层层传递中「理解」语言

输入一段文本,Transformer把它变成一串向量——这个过程看似简单,背后却隐藏着一个精妙的信息加工流水线。每个Token在每个Transformer层都有一个对应的Hidden State(隐藏状态),这个向量不是静态的词嵌入,而是在网络的层层传递中不断被重塑、被丰富、被"理解"的动态表示。 ...

17 min · 8017 words

Transformer的权重共享:为什么一行代码能省下两亿参数

一行代码的魔法 在PyTorch中实现一个简单的语言模型时,你可能会看到这样一行看似普通的代码: self.lm_head.weight = self.embedding.weight 这行代码做的事情非常简单:让输出层的权重指针直接指向嵌入层的权重。但就是这样一行代码,却能够为一个典型的70亿参数大模型节省约2亿个参数——相当于模型总参数量的3%左右。 ...

13 min · 6138 words

自注意力与交叉注意力:Transformer如何用两种机制处理「同一序列」与「两个世界」

2017年,Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这篇论文的核心洞察可以用一句话概括:循环神经网络并非处理序列数据的唯一途径,注意力机制本身就足够了。 ...

17 min · 8389 words

因果语言模型与掩码语言模型:两种预训练范式的本质差异

2017年,《Attention Is All You Need》论文提出了Transformer架构,彻底改变了自然语言处理的范式。然而,这个架构很快分化为两条截然不同的发展路径:一条以BERT为代表的编码器路线,通过掩码语言模型(Masked Language Modeling, MLM)学习双向上下文表示;另一条以GPT为代表的解码器路线,通过因果语言模型(Causal Language Modeling, CLM)实现自回归文本生成。 ...

7 min · 3433 words

一个字符的救赎:拼写检查如何在毫秒间从编辑距离走到深度学习

1961年,MIT的计算机科学家Lester Earnest面临一个看似琐碎的问题:如何让计算机识别打字错误的单词?当时的计算机还是房间大小的庞然大物,输入依靠打孔纸带,一个拼写错误可能意味着重新穿孔整段程序。Earnest开发了一个简单的程序,它能将文档中的每个单词与预定义的词典进行比对——这便是人类历史上第一个拼写检查器的雏形。 ...

13 min · 6449 words