Word2Vec:两个模型如何教会机器理解词语之间的关系
2013年,Tomas Mikolov领导的团队在Google发表了两篇看似简单的论文。他们用一个浅层神经网络,只做一件事情:根据词语的上下文来学习词语的向量表示。这个叫Word2Vec的方法,后来成为自然语言处理领域最具影响力的技术之一。 ...
2013年,Tomas Mikolov领导的团队在Google发表了两篇看似简单的论文。他们用一个浅层神经网络,只做一件事情:根据词语的上下文来学习词语的向量表示。这个叫Word2Vec的方法,后来成为自然语言处理领域最具影响力的技术之一。 ...
当你告诉大模型"不要在代码中使用eval函数",它偏偏生成了包含eval的代码;当你问"哪些水果不是红色的",它列出了红苹果和草莓。这不是个例,而是一个困扰了自然语言处理领域十年的顽疾。 ...
计算机无法直接理解文字。当一个语言模型接收到输入"苹果"时,它看到的不是水果的形象,而是一个冰冷的数字——Token ID。Embedding层的工作,就是把这个离散的整数转换成连续的高维向量,让模型能够开始"理解"语言的语义。 ...
一个语言模型的好坏,究竟该如何衡量? 假设你训练了两个语言模型。模型A对句子"猫坐在垫子上"给出了0.01的概率,模型B给出了0.001的概率。哪个模型更好?直觉告诉我们模型A更好——它对真实存在的句子赋予了更高的概率。但如果模型A对所有句子都赋予高概率呢?包括那些毫无意义的句子组合? ...
1994年2月,Philip Gage在《C Users Journal》上发表了一篇题为"A New Algorithm for Data Compression"的文章。这位程序员的初衷很简单:找到一种更高效的方式来压缩数据。他没有想到,三十年后,他发明的Byte Pair Encoding(BPE)算法会成为让ChatGPT、Claude、LLaMA等大语言模型理解人类语言的第一道关卡。 ...