PaLM on Answer

PaLM on Answer https://answer.freetools.me/tags/palm/ Recent content in PaLM on Answer Hugo -- 0.152.2 zh-cn Thu, 12 Mar 2026 13:12:12 +0800 偏置项的消亡：为什么现代大模型删除了这个看似必不可少的参数 https://answer.freetools.me/%E5%81%8F%E7%BD%AE%E9%A1%B9%E7%9A%84%E6%B6%88%E4%BA%A1%E4%B8%BA%E4%BB%80%E4%B9%88%E7%8E%B0%E4%BB%A3%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%88%A0%E9%99%A4%E4%BA%86%E8%BF%99%E4%B8%AA%E7%9C%8B%E4%BC%BC%E5%BF%85%E4%B8%8D%E5%8F%AF%E5%B0%91%E7%9A%84%E5%8F%82%E6%95%B0/ Thu, 12 Mar 2026 13:12:12 +0800 https://answer.freetools.me/%E5%81%8F%E7%BD%AE%E9%A1%B9%E7%9A%84%E6%B6%88%E4%BA%A1%E4%B8%BA%E4%BB%80%E4%B9%88%E7%8E%B0%E4%BB%A3%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%88%A0%E9%99%A4%E4%BA%86%E8%BF%99%E4%B8%AA%E7%9C%8B%E4%BC%BC%E5%BF%85%E4%B8%8D%E5%8F%AF%E5%B0%91%E7%9A%84%E5%8F%82%E6%95%B0/ 从PaLM到LLaMA，现代大模型为何纷纷移除偏置项？本文深入分析LayerNorm和残差连接如何使偏置项变得冗余，以及这一设计选择对训练稳定性和参数效率的影响。大模型为什么会产生涌现能力？从Scaling Laws到相变理论的科学解密 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BC%9A%E4%BA%A7%E7%94%9F%E6%B6%8C%E7%8E%B0%E8%83%BD%E5%8A%9B%E4%BB%8Escaling-laws%E5%88%B0%E7%9B%B8%E5%8F%98%E7%90%86%E8%AE%BA%E7%9A%84%E7%A7%91%E5%AD%A6%E8%A7%A3%E5%AF%86/ Sun, 08 Mar 2026 13:28:16 +0800 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BC%9A%E4%BA%A7%E7%94%9F%E6%B6%8C%E7%8E%B0%E8%83%BD%E5%8A%9B%E4%BB%8Escaling-laws%E5%88%B0%E7%9B%B8%E5%8F%98%E7%90%86%E8%AE%BA%E7%9A%84%E7%A7%91%E5%AD%A6%E8%A7%A3%E5%AF%86/ 深入解析大语言模型涌现能力的科学机制。从2022年Wei等人定义涌现能力，到2023年斯坦福团队的"海市蜃楼"质疑，再到2024年预训练损失视角的理论突破，系统阐述涌现能力的定义、具体案例、理论解释与学术争议。涵盖Induction Heads机制、BIG-Bench基准测试、Chain-of-Thought推理、预训练损失阈值等关键概念，以及涌现能力对AI安全与发展的深远影响。