Logit Lens

当一个大语言模型输出"巴黎是法国的首都"时，这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中，每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程？ ...