SmoothQuant

一个70B参数的大语言模型，如果以FP16格式存储，需要140GB显存。NVIDIA A100只有80GB，H200也才141GB——这意味着推理一个70B模型，要么用多卡分布式，要么接受频繁的CPU-GPU数据交换。但2022年底开始，一种技术让同样大小的模型可以塞进消费级显卡：4位量化。 ...