为什么歌曲会在脑中循环播放?从耳虫现象到认知神经科学的完整解密

1876年,马克·吐温在《一桩文学噩梦》中描述了一个令人抓狂的经历:他在报纸上读到一段押韵的小诗,读了"几遍之后,它立刻完全占据了我……我上床睡觉,翻来覆去,那韵律一直跟着我……午夜时分我起来,几近疯狂……到日出时我已经神志不清,每个人都在惊叹,对我那些疯狂的呓语感到困惑。" ...

12 min · 5955 words

屏幕时间管理为何沦为数字安慰剂:从操作系统限制到注意力经济的设计博弈

2018年9月,苹果发布iOS 12,推出了备受期待的"屏幕时间"(Screen Time)功能。用户可以设置应用使用限制、安排"停机时间"、查看详细的使用统计。看起来,一场对抗数字成瘾的技术革命已经到来。 ...

14 min · 6818 words

为什么千亿参数的模型只需激活百亿?MoE架构的三十年技术突围

2024年12月,DeepSeek团队发布了一组令人困惑的数字:DeepSeek-V3拥有6710亿参数,但每个token实际只激活370亿参数。这意味着超过94%的参数在任何时刻都处于"休眠"状态。 ...

14 min · 6754 words

大模型为什么会编造事实:从统计本质到检测缓解的技术全景

2023年,一位美国律师使用ChatGPT查找法律判例,结果在法庭上提交了六个完全不存在的案例。法官在裁决书中写道:“这些案例是’幻觉’的产物。“这不是一个孤立的案例。从医疗诊断到金融分析,从学术研究到法律咨询,大模型的幻觉问题正在成为AI落地应用的最大障碍。 ...

13 min · 6107 words

大模型为什么会产生涌现能力?从Scaling Laws到相变理论的科学解密

2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。 ...

13 min · 6319 words

当注意力成为瓶颈:从O(n²)困境到线性复杂度的技术突围

2017年,Google Research发表了题为《Attention Is All You Need》的论文,Transformer架构从此横空出世。但论文标题中的"All You Need"隐含了一个不言自明的假设:你能够负担得起注意力的代价。 ...

14 min · 6779 words

Tokenizer决定大模型"看到"的世界:从BPE算法到草莓问题的技术解密

2024年,一个奇怪的现象在社交媒体上引发热议:当用户问ChatGPT"strawberry这个词里有几个r"时,模型自信地回答"两个"。这个错误如此基础,以至于有人质疑:连小学生都能数对的事,为什么拥有数千亿参数的大模型做不到? ...

12 min · 5799 words