Attention Mask:Transformer如何通过一个矩阵控制信息流向

在Transformer架构中,注意力机制让每个token都能"看见"序列中的所有其他token。但有时候,我们恰恰需要某些token"看不见"其他token——这正是Attention Mask存在的意义。这个看似简单的矩阵,承担着因果性保证、填充处理、计算优化等多重职责,是理解Transformer工作方式的关键入口。 ...

18 min · 8874 words

自回归生成:为什么大模型必须逐词输出

当你向大语言模型提问时,可能注意过一个现象:模型的回答是逐字逐句流式出现的,而不是瞬间生成整段文本。这并非产品设计的"打字机效果",而是大模型生成机制的本质特性。 ...

13 min · 6074 words