Token ID:大模型如何用一个数字代表一个词

当你打开ChatGPT输入"你好"两个字,模型看到的是什么? 它看到的不是汉字,不是笔画,甚至不是图像像素。它看到的是两个整数:[22024, 22845]。 ...

15 min · 7483 words

Transformer的前馈层:为什么这个"配角"占据了模型三分之二的参数

翻开任何一篇介绍Transformer的文章,注意力机制总是占据C位。“Attention Is All You Need”——这篇2017年的论文标题本身就暗示着注意力是主角。但如果把目光从聚光灯下移开,看向模型的参数分布,会发现一个反直觉的事实:在GPT-3的1750亿参数中,前馈网络(Feed-Forward Network,FFN)占据了约三分之二。 ...

13 min · 6254 words