Speculative Decoding

一个拥有1750亿参数的语言模型，每次生成一个token都需要从内存读取超过700GB的权重数据——但实际执行的计算量却让GPU大部分时间处于空闲状态。这种"内存等待计算"的倒挂现象，是大模型推理速度的根本瓶颈。 ...