因果掩码 | Answer

Attention Mask：Transformer如何通过一个矩阵控制信息流向

在Transformer架构中，注意力机制让每个token都能"看见"序列中的所有其他token。但有时候，我们恰恰需要某些token"看不见"其他token——这正是Attention Mask存在的意义。这个看似简单的矩阵，承担着因果性保证、填充处理、计算优化等多重职责，是理解Transformer工作方式的关键入口。 ...

自回归生成：为什么大模型必须逐词输出

当你向大语言模型提问时，可能注意过一个现象：模型的回答是逐字逐句流式出现的，而不是瞬间生成整段文本。这并非产品设计的"打字机效果"，而是大模型生成机制的本质特性。 ...