Embedding层:从离散符号到语义空间的第一步

计算机无法直接理解文字。当一个语言模型接收到输入"苹果"时,它看到的不是水果的形象,而是一个冰冷的数字——Token ID。Embedding层的工作,就是把这个离散的整数转换成连续的高维向量,让模型能够开始"理解"语言的语义。 ...

16 min · 7519 words

因果语言模型与掩码语言模型:两种预训练范式的本质差异

2017年,《Attention Is All You Need》论文提出了Transformer架构,彻底改变了自然语言处理的范式。然而,这个架构很快分化为两条截然不同的发展路径:一条以BERT为代表的编码器路线,通过掩码语言模型(Masked Language Modeling, MLM)学习双向上下文表示;另一条以GPT为代表的解码器路线,通过因果语言模型(Causal Language Modeling, CLM)实现自回归文本生成。 ...

7 min · 3433 words

Tokenizer决定大模型"看到"的世界:从BPE算法到草莓问题的技术解密

2024年,一个奇怪的现象在社交媒体上引发热议:当用户问ChatGPT"strawberry这个词里有几个r"时,模型自信地回答"两个"。这个错误如此基础,以至于有人质疑:连小学生都能数对的事,为什么拥有数千亿参数的大模型做不到? ...

12 min · 5799 words

为什么大模型不需要训练就能学会新任务:从贝叶斯推断到隐式权重更新的技术解密

2020年5月,OpenAI发布了一篇题为《Language Models are Few-Shot Learners》的论文。论文的核心发现令研究社区震惊:一个拥有1750亿参数的语言模型,竟然可以在不更新任何参数的情况下,仅凭提示中的几个示例就学会全新的任务。 ...

10 min · 4922 words

为什么最先进的AI依然会编造事实:从训练机制到评估陷阱的技术解密

2023年5月,纽约联邦法院审理一起看似普通的航空伤害赔偿案。原告Roberto Mata的代理律师提交了一份详尽的法律简报,引用了Zicherman v. Korean Air Lines Co.、Varghese v. China Southern Airlines Co.等多个先例。问题在于——这些案例在现实中根本不存在。 ...

10 min · 4628 words

语音助手为何总是听不懂你说的话从声学模型到语言模型的技术困境

你在嘈杂的咖啡馆里对着手机说"导航回家",屏幕上却显示"导航加回"。你清晰地念出同事的名字"李明",语音助手却把它听成了"黎明"。你在会议中想用语音转文字记录重要内容,结果输出的文本里出现了完全不存在的句子。 ...

13 min · 6158 words

一个字符的救赎:拼写检查如何在毫秒间从编辑距离走到深度学习

1961年,MIT的计算机科学家Lester Earnest面临一个看似琐碎的问题:如何让计算机识别打字错误的单词?当时的计算机还是房间大小的庞然大物,输入依靠打孔纸带,一个拼写错误可能意味着重新穿孔整段程序。Earnest开发了一个简单的程序,它能将文档中的每个单词与预定义的词典进行比对——这便是人类历史上第一个拼写检查器的雏形。 ...

13 min · 6449 words