LLaMA on Answer

LLaMA on Answer https://answer.freetools.me/tags/llama/ Recent content in LLaMA on Answer Hugo -- 0.152.2 zh-cn Thu, 12 Mar 2026 19:55:07 +0800 Transformer参数量计算：从Embedding到FFN的完整公式推导 https://answer.freetools.me/transformer%E5%8F%82%E6%95%B0%E9%87%8F%E8%AE%A1%E7%AE%97%E4%BB%8Eembedding%E5%88%B0ffn%E7%9A%84%E5%AE%8C%E6%95%B4%E5%85%AC%E5%BC%8F%E6%8E%A8%E5%AF%BC/ Thu, 12 Mar 2026 19:55:07 +0800 https://answer.freetools.me/transformer%E5%8F%82%E6%95%B0%E9%87%8F%E8%AE%A1%E7%AE%97%E4%BB%8Eembedding%E5%88%B0ffn%E7%9A%84%E5%AE%8C%E6%95%B4%E5%85%AC%E5%BC%8F%E6%8E%A8%E5%AF%BC/ 深入解析Transformer模型参数量的计算方法，从Embedding层到Attention层再到FFN层，通过数学公式推导每个组件的参数贡献，并以GPT-3、LLaMA等实际模型为例进行验证。偏置项的消亡：为什么现代大模型删除了这个看似必不可少的参数 https://answer.freetools.me/%E5%81%8F%E7%BD%AE%E9%A1%B9%E7%9A%84%E6%B6%88%E4%BA%A1%E4%B8%BA%E4%BB%80%E4%B9%88%E7%8E%B0%E4%BB%A3%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%88%A0%E9%99%A4%E4%BA%86%E8%BF%99%E4%B8%AA%E7%9C%8B%E4%BC%BC%E5%BF%85%E4%B8%8D%E5%8F%AF%E5%B0%91%E7%9A%84%E5%8F%82%E6%95%B0/ Thu, 12 Mar 2026 13:12:12 +0800 https://answer.freetools.me/%E5%81%8F%E7%BD%AE%E9%A1%B9%E7%9A%84%E6%B6%88%E4%BA%A1%E4%B8%BA%E4%BB%80%E4%B9%88%E7%8E%B0%E4%BB%A3%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%88%A0%E9%99%A4%E4%BA%86%E8%BF%99%E4%B8%AA%E7%9C%8B%E4%BC%BC%E5%BF%85%E4%B8%8D%E5%8F%AF%E5%B0%91%E7%9A%84%E5%8F%82%E6%95%B0/ 从PaLM到LLaMA，现代大模型为何纷纷移除偏置项？本文深入分析LayerNorm和残差连接如何使偏置项变得冗余，以及这一设计选择对训练稳定性和参数效率的影响。 Transformer的权重共享：为什么一行代码能省下两亿参数 https://answer.freetools.me/transformer%E7%9A%84%E6%9D%83%E9%87%8D%E5%85%B1%E4%BA%AB%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%80%E8%A1%8C%E4%BB%A3%E7%A0%81%E8%83%BD%E7%9C%81%E4%B8%8B%E4%B8%A4%E4%BA%BF%E5%8F%82%E6%95%B0/ Thu, 12 Mar 2026 06:33:31 +0800 https://answer.freetools.me/transformer%E7%9A%84%E6%9D%83%E9%87%8D%E5%85%B1%E4%BA%AB%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%80%E8%A1%8C%E4%BB%A3%E7%A0%81%E8%83%BD%E7%9C%81%E4%B8%8B%E4%B8%A4%E4%BA%BF%E5%8F%82%E6%95%B0/ 深入解析Transformer模型中输入嵌入层与输出层共享权重的技术原理，从直觉理解到数学推导，揭示这个看似简单的设计决策背后的深层逻辑。 SwiGLU为何成为大模型的标配：从ReLU到门控激活函数的十五年演进 https://answer.freetools.me/swiglu%E4%B8%BA%E4%BD%95%E6%88%90%E4%B8%BA%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%A0%87%E9%85%8D%E4%BB%8Erelu%E5%88%B0%E9%97%A8%E6%8E%A7%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0%E7%9A%84%E5%8D%81%E4%BA%94%E5%B9%B4%E6%BC%94%E8%BF%9B/ Wed, 11 Mar 2026 15:12:58 +0800 https://answer.freetools.me/swiglu%E4%B8%BA%E4%BD%95%E6%88%90%E4%B8%BA%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E6%A0%87%E9%85%8D%E4%BB%8Erelu%E5%88%B0%E9%97%A8%E6%8E%A7%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B0%E7%9A%84%E5%8D%81%E4%BA%94%E5%B9%B4%E6%BC%94%E8%BF%9B/ 深入解析大语言模型激活函数的演进历程：从ReLU的困境到GELU的平滑化，从GLU的门控机制到SwiGLU的完美结合。基于Google 2020年GLU论文的实验数据，揭示为什么LLaMA、Mistral等现代大模型都选择了SwiGLU作为FFN层的激活函数，以及参数量与性能之间的权衡考量。