BERT | Answer

Hidden State：Transformer如何在层层传递中「理解」语言

输入一段文本，Transformer把它变成一串向量——这个过程看似简单，背后却隐藏着一个精妙的信息加工流水线。每个Token在每个Transformer层都有一个对应的Hidden State（隐藏状态），这个向量不是静态的词嵌入，而是在网络的层层传递中不断被重塑、被丰富、被"理解"的动态表示。 ...

Transformer的权重共享：为什么一行代码能省下两亿参数

一行代码的魔法在PyTorch中实现一个简单的语言模型时，你可能会看到这样一行看似普通的代码： self.lm_head.weight = self.embedding.weight 这行代码做的事情非常简单：让输出层的权重指针直接指向嵌入层的权重。但就是这样一行代码，却能够为一个典型的70亿参数大模型节省约2亿个参数——相当于模型总参数量的3%左右。 ...

自注意力与交叉注意力：Transformer如何用两种机制处理「同一序列」与「两个世界」

2017年，Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这篇论文的核心洞察可以用一句话概括：循环神经网络并非处理序列数据的唯一途径，注意力机制本身就足够了。 ...

因果语言模型与掩码语言模型：两种预训练范式的本质差异

2017年，《Attention Is All You Need》论文提出了Transformer架构，彻底改变了自然语言处理的范式。然而，这个架构很快分化为两条截然不同的发展路径：一条以BERT为代表的编码器路线，通过掩码语言模型(Masked Language Modeling, MLM)学习双向上下文表示；另一条以GPT为代表的解码器路线，通过因果语言模型(Causal Language Modeling, CLM)实现自回归文本生成。 ...

一个字符的救赎：拼写检查如何在毫秒间从编辑距离走到深度学习

1961年，MIT的计算机科学家Lester Earnest面临一个看似琐碎的问题：如何让计算机识别打字错误的单词？当时的计算机还是房间大小的庞然大物，输入依靠打孔纸带，一个拼写错误可能意味着重新穿孔整段程序。Earnest开发了一个简单的程序，它能将文档中的每个单词与预定义的词典进行比对——这便是人类历史上第一个拼写检查器的雏形。 ...