Logit Lens:Transformer的每一层都在"想"什么 当一个大语言模型输出"巴黎是法国的首都"时,这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中,每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程? ...