自然语言处理

Hidden State：Transformer如何在层层传递中「理解」语言

输入一段文本，Transformer把它变成一串向量——这个过程看似简单，背后却隐藏着一个精妙的信息加工流水线。每个Token在每个Transformer层都有一个对应的Hidden State（隐藏状态），这个向量不是静态的词嵌入，而是在网络的层层传递中不断被重塑、被丰富、被"理解"的动态表示。 ...

Beam Search：为什么这个「折中」算法统治了序列生成三十年

1997年，IBM的研究人员在开发统计机器翻译系统时遇到了一个棘手的问题：如何在庞大的搜索空间中找到最优的翻译序列？穷举搜索计算量太大，贪婪搜索又太短视。他们最终选择了一个折中方案——Beam Search。二十多年过去了，这个算法不仅没有被淘汰，反而成为了Transformer、GPT等现代大模型的标准配置。一个「妥协」的产物为何能统治序列生成领域如此之久？ ...

大模型为何会陷入无限循环：从自注意力机制到训练数据的重复诅咒

一个训练了数千亿参数、在海量文本上学习了数十万小时的模型，面对"请列出以A开头的名字"这样一个简单问题，却陷入了这样的怪圈： ...

一个字符的救赎：拼写检查如何在毫秒间从编辑距离走到深度学习

1961年，MIT的计算机科学家Lester Earnest面临一个看似琐碎的问题：如何让计算机识别打字错误的单词？当时的计算机还是房间大小的庞然大物，输入依靠打孔纸带，一个拼写错误可能意味着重新穿孔整段程序。Earnest开发了一个简单的程序，它能将文档中的每个单词与预定义的词典进行比对——这便是人类历史上第一个拼写检查器的雏形。 ...