Embedding

Token ID：大模型如何用一个数字代表一个词

当你打开ChatGPT输入"你好"两个字，模型看到的是什么？它看到的不是汉字，不是笔画，甚至不是图像像素。它看到的是两个整数：[22024, 22845]。 ...

Transformer的权重共享：为什么一行代码能省下两亿参数

一行代码的魔法在PyTorch中实现一个简单的语言模型时，你可能会看到这样一行看似普通的代码： self.lm_head.weight = self.embedding.weight 这行代码做的事情非常简单：让输出层的权重指针直接指向嵌入层的权重。但就是这样一行代码，却能够为一个典型的70亿参数大模型节省约2亿个参数——相当于模型总参数量的3%左右。 ...

Embedding层：从离散符号到语义空间的第一步

计算机无法直接理解文字。当一个语言模型接收到输入"苹果"时，它看到的不是水果的形象，而是一个冰冷的数字——Token ID。Embedding层的工作，就是把这个离散的整数转换成连续的高维向量，让模型能够开始"理解"语言的语义。 ...