Padding

变长序列处理：大模型如何应对长短不一的输入

把三句话塞进一个batch里，会发生什么？ “我是一只猫"有4个token，“今天天气真好"也是4个，而"人工智能正在改变世界，从医疗到教育，从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

在处理变长序列时，padding是一个看似简单却暗藏玄机的预处理步骤。许多开发者在从BERT迁移到GPT风格模型时，都会遇到一个令人困惑的问题：同样的数据预处理流程，为什么在BERT上工作正常，在LLaMA上却产生荒谬的输出？答案藏在decoder-only架构的生成机制中。 ...