指令微调 | Answer

一个预训练完成的大型语言模型，如果直接投入使用，往往会给出令人困惑的回答。问它"法国的首都是哪里？"，它可能会继续补全这个句子，输出"德国的首都是柏林，意大利的首都是罗马…"——这是典型的续写行为，而非回答问题。 ...