为什么大模型越思考越聪明:从o1到DeepSeek-R1的推理时计算革命

2024年9月,OpenAI发布了一款名为o1的新模型。在GPQA Diamond测试——一项涵盖物理、化学、生物的博士级科学问题评估中,o1取得了77.3%的准确率,而招募的博士级专家平均得分仅为69.7%。这是AI首次在这一基准测试中超越人类专家。 ...

11 min · 5124 words