Induction Heads

大模型为什么会产生涌现能力？从Scaling Laws到相变理论的科学解密

2022年，Google Research的研究者们做了一个看似简单的实验：让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型，准确率几乎为零；但当参数量突破某个临界点后，准确率突然飙升到80%以上。 ...

2020年5月，OpenAI发布了一篇题为《Language Models are Few-Shot Learners》的论文。论文的核心发现令研究社区震惊：一个拥有1750亿参数的语言模型，竟然可以在不更新任何参数的情况下，仅凭提示中的几个示例就学会全新的任务。 ...