为什么CD选择了44.1kHz/16-bit:从奈奎斯特定理到现代DAC的完整技术解析

1982年,当索尼和飞利浦联合推出CD(Compact Disc)时,他们做出了两个看似随意的技术决定:44.1kHz的采样率和16位的量化深度。这两个数字从此定义了数字音频的四十年。为什么不是40kHz或50kHz?为什么是16位而不是20位?这背后是一连串精妙的数学权衡和工程妥协。 ...

14 min · 6537 words

为何4位量化能让70B模型塞进单张显卡:从数值表示到异常值处理的技术全解

一个70B参数的大语言模型,如果以FP16格式存储,需要140GB显存。NVIDIA A100只有80GB,H200也才141GB——这意味着推理一个70B模型,要么用多卡分布式,要么接受频繁的CPU-GPU数据交换。但2022年底开始,一种技术让同样大小的模型可以塞进消费级显卡:4位量化。 ...

11 min · 5204 words

为什么大模型能压缩到原来的1/4却几乎不损失性能:量化技术的数学真相

2022年,GPTQ论文报告了一个令人惊讶的结果:将OPT-175B模型从FP16量化到INT4后,困惑度从8.34上升到8.37,增幅仅为0.36%。这意味着将模型体积压缩75%,性能几乎不损失。 ...

15 min · 7371 words