模型权重文件的存储格式:从Pickle的安全漏洞到Safetensors的演进

当你在Hugging Face上下载一个预训练模型时,你有没有想过这个文件里究竟包含了什么?当你用torch.load()加载一个.pt文件时,你的计算机正在执行什么操作?为什么Hugging Face现在强烈推荐使用.safetensors格式而不是传统的PyTorch格式?这些看似简单的文件格式问题,实际上牵涉到深度学习领域最核心的安全与技术权衡。 ...

12 min · 5914 words

为何4位量化能让70B模型塞进单张显卡:从数值表示到异常值处理的技术全解

一个70B参数的大语言模型,如果以FP16格式存储,需要140GB显存。NVIDIA A100只有80GB,H200也才141GB——这意味着推理一个70B模型,要么用多卡分布式,要么接受频繁的CPU-GPU数据交换。但2022年底开始,一种技术让同样大小的模型可以塞进消费级显卡:4位量化。 ...

11 min · 5204 words