评估 | Answer

当一个新的大模型发布时，我们如何判断它到底有多强？模型技术报告上那些眼花缭乱的数字——MMLU 92%、GSM8K 95%、HumanEval 88%——究竟意味着什么？为什么一个在基准测试中表现优异的模型，实际使用时却常常令人失望？ ...