NLP | Answer

Word2Vec：两个模型如何教会机器理解词语之间的关系

2013年，Tomas Mikolov领导的团队在Google发表了两篇看似简单的论文。他们用一个浅层神经网络，只做一件事情：根据词语的上下文来学习词语的向量表示。这个叫Word2Vec的方法，后来成为自然语言处理领域最具影响力的技术之一。 ...

大模型为何读不懂"不"字：从注意力机制到训练数据的否定词困境

当你告诉大模型"不要在代码中使用eval函数"，它偏偏生成了包含eval的代码；当你问"哪些水果不是红色的"，它列出了红苹果和草莓。这不是个例，而是一个困扰了自然语言处理领域十年的顽疾。 ...

Embedding层：从离散符号到语义空间的第一步

计算机无法直接理解文字。当一个语言模型接收到输入"苹果"时，它看到的不是水果的形象，而是一个冰冷的数字——Token ID。Embedding层的工作，就是把这个离散的整数转换成连续的高维向量，让模型能够开始"理解"语言的语义。 ...

困惑度如何成为语言模型评估的黄金标准：从信息论到现代大模型的五十年演进

一个语言模型的好坏，究竟该如何衡量？假设你训练了两个语言模型。模型A对句子"猫坐在垫子上"给出了0.01的概率，模型B给出了0.001的概率。哪个模型更好？直觉告诉我们模型A更好——它对真实存在的句子赋予了更高的概率。但如果模型A对所有句子都赋予高概率呢？包括那些毫无意义的句子组合？ ...

Tokenizer 如何塑造大语言模型的世界观：从 BPE 到 Byte Latent Transformer 的三十年技术演进

1994年2月，Philip Gage在《C Users Journal》上发表了一篇题为"A New Algorithm for Data Compression"的文章。这位程序员的初衷很简单：找到一种更高效的方式来压缩数据。他没有想到，三十年后，他发明的Byte Pair Encoding（BPE）算法会成为让ChatGPT、Claude、LLaMA等大语言模型理解人类语言的第一道关卡。 ...