Hidden State:Transformer如何在层层传递中「理解」语言
输入一段文本,Transformer把它变成一串向量——这个过程看似简单,背后却隐藏着一个精妙的信息加工流水线。每个Token在每个Transformer层都有一个对应的Hidden State(隐藏状态),这个向量不是静态的词嵌入,而是在网络的层层传递中不断被重塑、被丰富、被"理解"的动态表示。 ...
输入一段文本,Transformer把它变成一串向量——这个过程看似简单,背后却隐藏着一个精妙的信息加工流水线。每个Token在每个Transformer层都有一个对应的Hidden State(隐藏状态),这个向量不是静态的词嵌入,而是在网络的层层传递中不断被重塑、被丰富、被"理解"的动态表示。 ...