预训练数据如何决定大模型的上限:从数据质量到清洗流程的完整解析
当LLaMA 3在2024年发布时,一个引人注目的细节被埋没在技术报告的角落:尽管训练数据从LLaMA 2的1.8万亿token增长到15万亿token,但数据清洗管道的改进才是模型性能飞跃的真正推手。Meta团队开发了复杂的数据处理流水线,包括启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器——这套系统让模型在更少训练步数下实现了更好的性能。 ...
当LLaMA 3在2024年发布时,一个引人注目的细节被埋没在技术报告的角落:尽管训练数据从LLaMA 2的1.8万亿token增长到15万亿token,但数据清洗管道的改进才是模型性能飞跃的真正推手。Meta团队开发了复杂的数据处理流水线,包括启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器——这套系统让模型在更少训练步数下实现了更好的性能。 ...
1881年,加拿大裔美国天文学家Simon Newcomb在使用对数表进行计算时注意到了一个奇怪的现象:书的前几页——那些以数字1开头的页——比后面的页磨损得更严重。这本该是一个无聊的观察,却揭示了一个横跨整个数学世界的惊人规律。 ...