Attention Mask

变长序列处理：大模型如何应对长短不一的输入

把三句话塞进一个batch里，会发生什么？ “我是一只猫"有4个token，“今天天气真好"也是4个，而"人工智能正在改变世界，从医疗到教育，从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

大模型的Padding陷阱：为什么Decoder推理必须左填充，而BERT却用右填充？

在处理变长序列时，padding是一个看似简单却暗藏玄机的预处理步骤。许多开发者在从BERT迁移到GPT风格模型时，都会遇到一个令人困惑的问题：同样的数据预处理流程，为什么在BERT上工作正常，在LLaMA上却产生荒谬的输出？答案藏在decoder-only架构的生成机制中。 ...

Attention Mask：Transformer如何通过一个矩阵控制信息流向

在Transformer架构中，注意力机制让每个token都能"看见"序列中的所有其他token。但有时候，我们恰恰需要某些token"看不见"其他token——这正是Attention Mask存在的意义。这个看似简单的矩阵，承担着因果性保证、填充处理、计算优化等多重职责，是理解Transformer工作方式的关键入口。 ...