权重共享 | Answer

一行代码的魔法在PyTorch中实现一个简单的语言模型时，你可能会看到这样一行看似普通的代码： self.lm_head.weight = self.embedding.weight 这行代码做的事情非常简单：让输出层的权重指针直接指向嵌入层的权重。但就是这样一行代码，却能够为一个典型的70亿参数大模型节省约2亿个参数——相当于模型总参数量的3%左右。 ...