数据质量 | Answer

预训练数据如何决定大模型的上限：从数据质量到清洗流程的完整解析

当LLaMA 3在2024年发布时，一个引人注目的细节被埋没在技术报告的角落：尽管训练数据从LLaMA 2的1.8万亿token增长到15万亿token，但数据清洗管道的改进才是模型性能飞跃的真正推手。Meta团队开发了复杂的数据处理流水线，包括启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器——这套系统让模型在更少训练步数下实现了更好的性能。 ...

一个被对数表泄露的秘密：为什么数字1总是赢家

1881年，加拿大裔美国天文学家Simon Newcomb在使用对数表进行计算时注意到了一个奇怪的现象：书的前几页——那些以数字1开头的页——比后面的页磨损得更严重。这本该是一个无聊的观察，却揭示了一个横跨整个数学世界的惊人规律。 ...