投机解码如何让大模型推理提速两倍而不损失精度

一个拥有1750亿参数的语言模型,每次生成一个token都需要从内存读取超过700GB的权重数据——但实际执行的计算量却让GPU大部分时间处于空闲状态。这种"内存等待计算"的倒挂现象,是大模型推理速度的根本瓶颈。 ...

3 min · 1318 words

软标签的秘密:为什么知识蒸馏能让小模型拥有大智慧

2015年3月,Geoffrey Hinton在arXiv上发表了一篇看似不起眼的论文。标题是《Distilling the Knowledge in a Neural Network》,核心观点简洁得令人惊讶:大模型学到的"软"概率分布,比"硬"的分类标签包含更多信息。 ...

13 min · 6505 words

编译器的循环优化技术:从循环展开到分块,为何几行代码的改动能让程序快十倍

计算机科学领域存在一个广为流传的二八定律:程序80%的执行时间耗费在20%的代码上,而这20%的代码中,循环结构占据主导地位。正因如此,循环优化成为编译器技术中最核心的研究方向之一。 ...

7 min · 3403 words

CPU频率为何停滞在5GHz:从Dennard缩放到暗硅问题的技术真相

1971年,Intel 4004处理器的频率是740kHz。三十年后的2000年,AMD Athlon突破1GHz大关,频率提升了超过1000倍。然而,当你打开今天最新的电脑,任务管理器里显示的CPU频率很可能仍在4-5GHz左右徘徊——和二十年前几乎没有变化。 ...

9 min · 4104 words

为什么大模型读不完一本书——从注意力机制到长上下文突围的技术全景

你有没有遇到过这样的情况:把一篇三万字的技术文档投给大模型,它告诉你"上下文长度超出限制";或者好不容易把文档拆成小块分别处理,却发现模型完全忘记了前面章节的内容,给出的分析前后矛盾。 ...

11 min · 5239 words

为什么修改大模型中的一个知识点会引发连锁崩溃

2022年,斯坦福大学的研究团队发表了一篇引人注目的论文。他们声称找到了一种方法,可以精准地修改大语言模型中的特定知识,而不影响其他能力。方法叫做ROME(Rank-One Model Editing),原理听起来很优雅:先用因果追踪定位知识存储的位置,然后像编辑数据库一样修改那个位置。 ...

12 min · 5655 words

为什么程序员讨厌写文档:从认知负荷到知识诅咒的心理科学解析

一个拥有十二年经验的高级工程师,在代码评审会议上侃侃而谈架构设计的精妙之处,但当被问到"API文档什么时候更新"时,气氛瞬间凝固。这不是个别现象——Stack Overflow 2024年对全球开发者的调查显示,文档工作平均占据开发者11%的工作时间,却始终是最被回避的任务。 ...

14 min · 6959 words