变长序列处理:大模型如何应对长短不一的输入

把三句话塞进一个batch里,会发生什么? “我是一只猫"有4个token,“今天天气真好"也是4个,而"人工智能正在改变世界,从医疗到教育,从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

16 min · 7676 words

大模型的Padding陷阱:为什么Decoder推理必须左填充,而BERT却用右填充?

在处理变长序列时,padding是一个看似简单却暗藏玄机的预处理步骤。许多开发者在从BERT迁移到GPT风格模型时,都会遇到一个令人困惑的问题:同样的数据预处理流程,为什么在BERT上工作正常,在LLaMA上却产生荒谬的输出?答案藏在decoder-only架构的生成机制中。 ...

18 min · 8669 words