Word2Vec:两个模型如何教会机器理解词语之间的关系

2013年,Tomas Mikolov领导的团队在Google发表了两篇看似简单的论文。他们用一个浅层神经网络,只做一件事情:根据词语的上下文来学习词语的向量表示。这个叫Word2Vec的方法,后来成为自然语言处理领域最具影响力的技术之一。 ...

20 min · 9922 words

变长序列处理:大模型如何应对长短不一的输入

把三句话塞进一个batch里,会发生什么? “我是一只猫"有4个token,“今天天气真好"也是4个,而"人工智能正在改变世界,从医疗到教育,从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

16 min · 7676 words

Transformer参数量计算:从Embedding到FFN的完整公式推导

引言:1750亿参数从何而来? 当你看到"GPT-3有1750亿参数"、“LLaMA 7B”、“Claude 100K上下文"这样的描述时,你是否想过:这1750亿参数到底是怎么算出来的?它们分别存储在模型的哪些部分? ...

18 min · 8531 words

序列到序列学习的二十年演进:从统计方法到Transformer的革命

2016年9月,Google宣布将生产环境的翻译系统从基于短语的统计机器翻译全面切换到神经机器翻译。这个决定背后,是近二十年序列建模技术的积累与突破。从IBM的统计翻译模型,到Sutskever等人的LSTM Seq2Seq,再到Bahdanau的注意力机制,最终汇聚成Transformer这一改变NLP格局的架构。理解这段演进历程,不仅能帮助我们把握技术脉络,更能看清现代大语言模型处理序列任务的设计哲学。 ...

5 min · 2442 words

Softmax的数值稳定性:为什么一行简单的代码能让训练崩溃

你花了数天清洗数据,精心调参,终于启动了训练。Loss曲线漂亮地下降,一切似乎都很顺利。突然,屏幕上跳出一个刺眼的 nan——整个训练过程在瞬间崩溃。 ...

15 min · 7071 words

Self-Attention计算全解:从矩阵乘法到梯度流动的完整技术解析

2017年,Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这个标题本身就是一个宣言:注意力机制不再需要循环神经网络或卷积神经网络的辅助,它足以独立承担序列建模的全部任务。 ...

17 min · 8037 words

对比学习如何用"比较"重构神经网络的表示能力

2018年,OpenAI的研究员Alec Radford正在思考一个问题:如何让神经网络理解图像和文本之间的关系,而不需要人工标注的百万级训练数据?传统的监督学习范式需要告诉模型"这是一只猫"、“那是一辆车”,但人类学习概念的方式似乎并非如此。我们通过比较和对比来理解世界——知道什么相似,什么不同,什么属于同一类别,什么截然相反。 ...

17 min · 8021 words