大模型为什么会产生涌现能力?从Scaling Laws到相变理论的科学解密

2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。 ...

13 min · 6319 words

为什么热水比冷水结冰更快:一个困扰科学家两千年的反直觉难题

1963年,坦桑尼亚一所中学的家政课上,13岁的Erasto Mpemba正忙着和同学们一起制作冰淇淋。当其他同学耐心等待煮沸的牛奶糖浆冷却到室温再放入冰箱时,急于抢到冰格最后位置的Mpemba直接把滚烫的混合物倒了进去。一个半小时后,他的冰淇淋已经凝固,而同学们那些"正确做法"的糖浆还只是粘稠的液体。 ...

9 min · 4151 words