大模型的Padding陷阱:为什么Decoder推理必须左填充,而BERT却用右填充?
在处理变长序列时,padding是一个看似简单却暗藏玄机的预处理步骤。许多开发者在从BERT迁移到GPT风格模型时,都会遇到一个令人困惑的问题:同样的数据预处理流程,为什么在BERT上工作正常,在LLaMA上却产生荒谬的输出?答案藏在decoder-only架构的生成机制中。 ...
在处理变长序列时,padding是一个看似简单却暗藏玄机的预处理步骤。许多开发者在从BERT迁移到GPT风格模型时,都会遇到一个令人困惑的问题:同样的数据预处理流程,为什么在BERT上工作正常,在LLaMA上却产生荒谬的输出?答案藏在decoder-only架构的生成机制中。 ...
当LLaMA 3在2024年发布时,一个引人注目的细节被埋没在技术报告的角落:尽管训练数据从LLaMA 2的1.8万亿token增长到15万亿token,但数据清洗管道的改进才是模型性能飞跃的真正推手。Meta团队开发了复杂的数据处理流水线,包括启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器——这套系统让模型在更少训练步数下实现了更好的性能。 ...
2015年,Sergey Ioffe和Christian Szegedy在ICML上发表了一篇论文,提出了Batch Normalization。这篇论文后来成为深度学习领域被引用最多的工作之一。但很少有人注意到,这项最初为计算机视觉设计的技术,在自然语言处理领域却"水土不服"——Transformer选择了完全不同的Layer Normalization。 ...
你有没有想过,为什么大模型生成第一个字需要几秒钟,但后续的字却快得多?为什么同样的模型,处理1000字的上下文比处理100字消耗更多显存?为什么有些70B参数的模型反而比7B模型的KV缓存更小? ...
翻开任何一篇介绍Transformer的文章,注意力机制总是占据C位。“Attention Is All You Need”——这篇2017年的论文标题本身就暗示着注意力是主角。但如果把目光从聚光灯下移开,看向模型的参数分布,会发现一个反直觉的事实:在GPT-3的1750亿参数中,前馈网络(Feed-Forward Network,FFN)占据了约三分之二。 ...
一个预训练完成的大型语言模型,如果直接投入使用,往往会给出令人困惑的回答。问它"法国的首都是哪里?",它可能会继续补全这个句子,输出"德国的首都是柏林,意大利的首都是罗马…"——这是典型的续写行为,而非回答问题。 ...
在Transformer架构中,注意力机制让每个token都能"看见"序列中的所有其他token。但有时候,我们恰恰需要某些token"看不见"其他token——这正是Attention Mask存在的意义。这个看似简单的矩阵,承担着因果性保证、填充处理、计算优化等多重职责,是理解Transformer工作方式的关键入口。 ...