LLM训练 on Answer

LLM训练 on Answer https://answer.freetools.me/tags/llm%E8%AE%AD%E7%BB%83/ Recent content in LLM训练 on Answer Hugo -- 0.152.2 zh-cn Sat, 21 Mar 2026 15:50:17 +0800 大模型训练的显存瓶颈如何突破：从ZeRO到Flash Attention的五年技术演进 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83%E7%9A%84%E6%98%BE%E5%AD%98%E7%93%B6%E9%A2%88%E5%A6%82%E4%BD%95%E7%AA%81%E7%A0%B4%E4%BB%8Ezero%E5%88%B0flash-attention%E7%9A%84%E4%BA%94%E5%B9%B4%E6%8A%80%E6%9C%AF%E6%BC%94%E8%BF%9B/ Sat, 21 Mar 2026 15:50:17 +0800 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83%E7%9A%84%E6%98%BE%E5%AD%98%E7%93%B6%E9%A2%88%E5%A6%82%E4%BD%95%E7%AA%81%E7%A0%B4%E4%BB%8Ezero%E5%88%B0flash-attention%E7%9A%84%E4%BA%94%E5%B9%B4%E6%8A%80%E6%9C%AF%E6%BC%94%E8%BF%9B/ 深入解析大模型训练中的显存瓶颈问题，从ZeRO的分片策略到Flash Attention的IO感知算法，全面梳理五年来的显存优化技术演进。包含详细的内存计算公式、技术对比和实战配置指南。预训练数据如何决定大模型的上限：从数据质量到清洗流程的完整解析 https://answer.freetools.me/%E9%A2%84%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE%E5%A6%82%E4%BD%95%E5%86%B3%E5%AE%9A%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E4%B8%8A%E9%99%90%E4%BB%8E%E6%95%B0%E6%8D%AE%E8%B4%A8%E9%87%8F%E5%88%B0%E6%B8%85%E6%B4%97%E6%B5%81%E7%A8%8B%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ Thu, 12 Mar 2026 02:47:11 +0800 https://answer.freetools.me/%E9%A2%84%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE%E5%A6%82%E4%BD%95%E5%86%B3%E5%AE%9A%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E4%B8%8A%E9%99%90%E4%BB%8E%E6%95%B0%E6%8D%AE%E8%B4%A8%E9%87%8F%E5%88%B0%E6%B8%85%E6%B4%97%E6%B5%81%E7%A8%8B%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ 深入解析大模型预训练数据处理的完整流程：从Common Crawl原始网页到高质量训练语料的转变过程。涵盖URL过滤、精确/近似/语义去重、启发式与模型驱动质量过滤、PII移除、数据混合策略等核心技术，以及数据质量对模型性能的量化影响。大模型训练中的学习率调度：从线性预热到WSD策略的技术演进 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83%E4%B8%AD%E7%9A%84%E5%AD%A6%E4%B9%A0%E7%8E%87%E8%B0%83%E5%BA%A6%E4%BB%8E%E7%BA%BF%E6%80%A7%E9%A2%84%E7%83%AD%E5%88%B0wsd%E7%AD%96%E7%95%A5%E7%9A%84%E6%8A%80%E6%9C%AF%E6%BC%94%E8%BF%9B/ Wed, 11 Mar 2026 15:59:24 +0800 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83%E4%B8%AD%E7%9A%84%E5%AD%A6%E4%B9%A0%E7%8E%87%E8%B0%83%E5%BA%A6%E4%BB%8E%E7%BA%BF%E6%80%A7%E9%A2%84%E7%83%AD%E5%88%B0wsd%E7%AD%96%E7%95%A5%E7%9A%84%E6%8A%80%E6%9C%AF%E6%BC%94%E8%BF%9B/ 深入解析大语言模型训练中学习率调度策略的技术原理与演进历程，从Warmup机制到Cosine Decay再到WSD策略，揭示为什么GPT、LLaMA等主流模型都选择了特定的学习率配置，以及不同策略在训练动态、损失景观和收敛性上的深层差异。