<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>大模型 on Answer</title>
    <link>https://answer.freetools.me/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/</link>
    <description>Recent content in 大模型 on Answer</description>
    <generator>Hugo -- 0.152.2</generator>
    <language>zh-cn</language>
    <lastBuildDate>Thu, 12 Mar 2026 03:10:03 +0800</lastBuildDate>
    <atom:link href="https://answer.freetools.me/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>为什么大模型连两位数加法都算不准：从tokenization到启发式神经元的完整技术解析</title>
      <link>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%BF%9E%E4%B8%A4%E4%BD%8D%E6%95%B0%E5%8A%A0%E6%B3%95%E9%83%BD%E7%AE%97%E4%B8%8D%E5%87%86%E4%BB%8Etokenization%E5%88%B0%E5%90%AF%E5%8F%91%E5%BC%8F%E7%A5%9E%E7%BB%8F%E5%85%83%E7%9A%84%E5%AE%8C%E6%95%B4%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/</link>
      <pubDate>Thu, 12 Mar 2026 03:10:03 +0800</pubDate>
      <guid>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%BF%9E%E4%B8%A4%E4%BD%8D%E6%95%B0%E5%8A%A0%E6%B3%95%E9%83%BD%E7%AE%97%E4%B8%8D%E5%87%86%E4%BB%8Etokenization%E5%88%B0%E5%90%AF%E5%8F%91%E5%BC%8F%E7%A5%9E%E7%BB%8F%E5%85%83%E7%9A%84%E5%AE%8C%E6%95%B4%E6%8A%80%E6%9C%AF%E8%A7%A3%E6%9E%90/</guid>
      <description>深入解析大语言模型算术能力受限的技术根源：从tokenization对数字的不一致切分、神经网络&amp;#34;启发式袋&amp;#34;机制替代真正算法、到位置编码导致数位信息丢失。基于ICLR 2025等前沿研究，揭示为什么能通过律师考试的AI却算不对两位数加法，以及这一发现对AI系统设计的深层启示。</description>
    </item>
    <item>
      <title>千亿参数模型如何拆分到多张GPU上训练：从数据并行到3D并行的技术突围</title>
      <link>https://answer.freetools.me/%E5%8D%83%E4%BA%BF%E5%8F%82%E6%95%B0%E6%A8%A1%E5%9E%8B%E5%A6%82%E4%BD%95%E6%8B%86%E5%88%86%E5%88%B0%E5%A4%9A%E5%BC%A0gpu%E4%B8%8A%E8%AE%AD%E7%BB%83%E4%BB%8E%E6%95%B0%E6%8D%AE%E5%B9%B6%E8%A1%8C%E5%88%B03d%E5%B9%B6%E8%A1%8C%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/</link>
      <pubDate>Mon, 09 Mar 2026 04:31:19 +0800</pubDate>
      <guid>https://answer.freetools.me/%E5%8D%83%E4%BA%BF%E5%8F%82%E6%95%B0%E6%A8%A1%E5%9E%8B%E5%A6%82%E4%BD%95%E6%8B%86%E5%88%86%E5%88%B0%E5%A4%9A%E5%BC%A0gpu%E4%B8%8A%E8%AE%AD%E7%BB%83%E4%BB%8E%E6%95%B0%E6%8D%AE%E5%B9%B6%E8%A1%8C%E5%88%B03d%E5%B9%B6%E8%A1%8C%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/</guid>
      <description>深入解析大模型分布式训练的核心技术。从数据并行的内存瓶颈，到张量并行的列/行切分策略，再到流水线并行的bubble问题与1F1B调度，最后到ZeRO与3D并行的终极方案。涵盖Megatron-LM、DeepSpeed等主流框架的实现原理，以及GPT-3等千亿参数模型的实际训练配置。</description>
    </item>
    <item>
      <title>软标签的秘密：为什么知识蒸馏能让小模型拥有大智慧</title>
      <link>https://answer.freetools.me/%E8%BD%AF%E6%A0%87%E7%AD%BE%E7%9A%84%E7%A7%98%E5%AF%86%E4%B8%BA%E4%BB%80%E4%B9%88%E7%9F%A5%E8%AF%86%E8%92%B8%E9%A6%8F%E8%83%BD%E8%AE%A9%E5%B0%8F%E6%A8%A1%E5%9E%8B%E6%8B%A5%E6%9C%89%E5%A4%A7%E6%99%BA%E6%85%A7/</link>
      <pubDate>Mon, 09 Mar 2026 03:45:14 +0800</pubDate>
      <guid>https://answer.freetools.me/%E8%BD%AF%E6%A0%87%E7%AD%BE%E7%9A%84%E7%A7%98%E5%AF%86%E4%B8%BA%E4%BB%80%E4%B9%88%E7%9F%A5%E8%AF%86%E8%92%B8%E9%A6%8F%E8%83%BD%E8%AE%A9%E5%B0%8F%E6%A8%A1%E5%9E%8B%E6%8B%A5%E6%9C%89%E5%A4%A7%E6%99%BA%E6%85%A7/</guid>
      <description>深入解析知识蒸馏技术的数学原理与工程实践。从Hinton 2015年原始论文中的温度参数与软标签概念，到DeepSeek-R1将推理能力迁移到小模型的最新突破。系统阐述蒸馏损失函数、特征蒸馏、注意力迁移、思维链蒸馏等核心技术，以及容量差距、暗知识的理论解释。包含MNIST实验数据、大模型蒸馏的性能基准、以及蒸馏技术的边界与挑战。</description>
    </item>
    <item>
      <title>为什么大模型连简单的加法都会算错？从分词陷阱到算术推理的技术困境</title>
      <link>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%BF%9E%E7%AE%80%E5%8D%95%E7%9A%84%E5%8A%A0%E6%B3%95%E9%83%BD%E4%BC%9A%E7%AE%97%E9%94%99%E4%BB%8E%E5%88%86%E8%AF%8D%E9%99%B7%E9%98%B1%E5%88%B0%E7%AE%97%E6%9C%AF%E6%8E%A8%E7%90%86%E7%9A%84%E6%8A%80%E6%9C%AF%E5%9B%B0%E5%A2%83/</link>
      <pubDate>Mon, 09 Mar 2026 02:47:33 +0800</pubDate>
      <guid>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%BF%9E%E7%AE%80%E5%8D%95%E7%9A%84%E5%8A%A0%E6%B3%95%E9%83%BD%E4%BC%9A%E7%AE%97%E9%94%99%E4%BB%8E%E5%88%86%E8%AF%8D%E9%99%B7%E9%98%B1%E5%88%B0%E7%AE%97%E6%9C%AF%E6%8E%A8%E7%90%86%E7%9A%84%E6%8A%80%E6%9C%AF%E5%9B%B0%E5%A2%83/</guid>
      <description>为什么大模型连简单的加法都会算错？从分词陷阱到算术推理的技术困境</description>
    </item>
    <item>
      <title>为什么大模型记不住之前的对话——从无状态推理到长期记忆架构的技术突围</title>
      <link>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%B0%E4%B8%8D%E4%BD%8F%E4%B9%8B%E5%89%8D%E7%9A%84%E5%AF%B9%E8%AF%9D%E4%BB%8E%E6%97%A0%E7%8A%B6%E6%80%81%E6%8E%A8%E7%90%86%E5%88%B0%E9%95%BF%E6%9C%9F%E8%AE%B0%E5%BF%86%E6%9E%B6%E6%9E%84%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/</link>
      <pubDate>Mon, 09 Mar 2026 02:17:50 +0800</pubDate>
      <guid>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%B0%E4%B8%8D%E4%BD%8F%E4%B9%8B%E5%89%8D%E7%9A%84%E5%AF%B9%E8%AF%9D%E4%BB%8E%E6%97%A0%E7%8A%B6%E6%80%81%E6%8E%A8%E7%90%86%E5%88%B0%E9%95%BF%E6%9C%9F%E8%AE%B0%E5%BF%86%E6%9E%B6%E6%9E%84%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/</guid>
      <description>深入解析大语言模型为什么无法记住之前的对话，从无状态推理的技术本质到AI Agent长期记忆架构的最新突破，包括Mem0、MemoryOS、MemGPT等前沿技术方案的设计哲学与工程权衡。</description>
    </item>
    <item>
      <title>大模型为什么会产生涌现能力？从Scaling Laws到相变理论的科学解密</title>
      <link>https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BC%9A%E4%BA%A7%E7%94%9F%E6%B6%8C%E7%8E%B0%E8%83%BD%E5%8A%9B%E4%BB%8Escaling-laws%E5%88%B0%E7%9B%B8%E5%8F%98%E7%90%86%E8%AE%BA%E7%9A%84%E7%A7%91%E5%AD%A6%E8%A7%A3%E5%AF%86/</link>
      <pubDate>Sun, 08 Mar 2026 13:28:16 +0800</pubDate>
      <guid>https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BC%9A%E4%BA%A7%E7%94%9F%E6%B6%8C%E7%8E%B0%E8%83%BD%E5%8A%9B%E4%BB%8Escaling-laws%E5%88%B0%E7%9B%B8%E5%8F%98%E7%90%86%E8%AE%BA%E7%9A%84%E7%A7%91%E5%AD%A6%E8%A7%A3%E5%AF%86/</guid>
      <description>深入解析大语言模型涌现能力的科学机制。从2022年Wei等人定义涌现能力，到2023年斯坦福团队的&amp;#34;海市蜃楼&amp;#34;质疑，再到2024年预训练损失视角的理论突破，系统阐述涌现能力的定义、具体案例、理论解释与学术争议。涵盖Induction Heads机制、BIG-Bench基准测试、Chain-of-Thought推理、预训练损失阈值等关键概念，以及涌现能力对AI安全与发展的深远影响。</description>
    </item>
    <item>
      <title>Tokenizer决定大模型&#34;看到&#34;的世界：从BPE算法到草莓问题的技术解密</title>
      <link>https://answer.freetools.me/tokenizer%E5%86%B3%E5%AE%9A%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9C%8B%E5%88%B0%E7%9A%84%E4%B8%96%E7%95%8C%E4%BB%8Ebpe%E7%AE%97%E6%B3%95%E5%88%B0%E8%8D%89%E8%8E%93%E9%97%AE%E9%A2%98%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/</link>
      <pubDate>Sun, 08 Mar 2026 13:12:23 +0800</pubDate>
      <guid>https://answer.freetools.me/tokenizer%E5%86%B3%E5%AE%9A%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9C%8B%E5%88%B0%E7%9A%84%E4%B8%96%E7%95%8C%E4%BB%8Ebpe%E7%AE%97%E6%B3%95%E5%88%B0%E8%8D%89%E8%8E%93%E9%97%AE%E9%A2%98%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/</guid>
      <description>深入解析大语言模型Tokenizer的技术原理与设计权衡。从1994年Philip Gage的数据压缩算法到Sennrich等人2015年的NLP应用，系统阐述BPE算法的工作机制、词表大小的权衡、多语言效率差异、以及\&amp;#34;strawberry问题\&amp;#34;等经典案例。涵盖GPT-4与GPT-4o tokenizer对比、中文token效率分析、数学能力影响，以及tokenizer-free架构的未来展望。</description>
    </item>
    <item>
      <title>当参数突破临界点：AI模型为什么会突然&#34;开窍&#34;</title>
      <link>https://answer.freetools.me/%E5%BD%93%E5%8F%82%E6%95%B0%E7%AA%81%E7%A0%B4%E4%B8%B4%E7%95%8C%E7%82%B9ai%E6%A8%A1%E5%9E%8B%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BC%9A%E7%AA%81%E7%84%B6%E5%BC%80%E7%AA%8D/</link>
      <pubDate>Sun, 08 Mar 2026 13:05:46 +0800</pubDate>
      <guid>https://answer.freetools.me/%E5%BD%93%E5%8F%82%E6%95%B0%E7%AA%81%E7%A0%B4%E4%B8%B4%E7%95%8C%E7%82%B9ai%E6%A8%A1%E5%9E%8B%E4%B8%BA%E4%BB%80%E4%B9%88%E4%BC%9A%E7%AA%81%E7%84%B6%E5%BC%80%E7%AA%8D/</guid>
      <description>深入解析大语言模型涌现能力(Emergent Abilities)的科学争议。从Wei等人2022年的开创性发现到Schaeffer等人2023年的反驳，系统阐述涌现能力的定义、具体实例、学术争议与理论解释。涵盖三位数加法的惊人跳跃、相变理论、Grokking现象，以及对AI研发和安全的影响。</description>
    </item>
    <item>
      <title>为什么大模型不需要训练就能学会新任务：从贝叶斯推断到隐式权重更新的技术解密</title>
      <link>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%B8%8D%E9%9C%80%E8%A6%81%E8%AE%AD%E7%BB%83%E5%B0%B1%E8%83%BD%E5%AD%A6%E4%BC%9A%E6%96%B0%E4%BB%BB%E5%8A%A1%E4%BB%8E%E8%B4%9D%E5%8F%B6%E6%96%AF%E6%8E%A8%E6%96%AD%E5%88%B0%E9%9A%90%E5%BC%8F%E6%9D%83%E9%87%8D%E6%9B%B4%E6%96%B0%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/</link>
      <pubDate>Sun, 08 Mar 2026 13:00:42 +0800</pubDate>
      <guid>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E5%A4%A7%E6%A8%A1%E5%9E%8B%E4%B8%8D%E9%9C%80%E8%A6%81%E8%AE%AD%E7%BB%83%E5%B0%B1%E8%83%BD%E5%AD%A6%E4%BC%9A%E6%96%B0%E4%BB%BB%E5%8A%A1%E4%BB%8E%E8%B4%9D%E5%8F%B6%E6%96%AF%E6%8E%A8%E6%96%AD%E5%88%B0%E9%9A%90%E5%BC%8F%E6%9D%83%E9%87%8D%E6%9B%B4%E6%96%B0%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/</guid>
      <description>深入解析大语言模型上下文学习(In-Context Learning)的科学机制。从2020年GPT-3的意外发现到2025年谷歌论文的理论突破，系统阐述ICL的三种主流解释：斯坦福的贝叶斯推断框架、Anthropic的Induction Heads机制、谷歌的隐式权重更新理论。涵盖ICL与微调的性能对比、涌现条件、局限性分析，以及从few-shot到many-shot的实践演进。</description>
    </item>
    <item>
      <title>为什么最先进的AI依然会编造事实：从训练机制到评估陷阱的技术解密</title>
      <link>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E6%9C%80%E5%85%88%E8%BF%9B%E7%9A%84ai%E4%BE%9D%E7%84%B6%E4%BC%9A%E7%BC%96%E9%80%A0%E4%BA%8B%E5%AE%9E%E4%BB%8E%E8%AE%AD%E7%BB%83%E6%9C%BA%E5%88%B6%E5%88%B0%E8%AF%84%E4%BC%B0%E9%99%B7%E9%98%B1%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/</link>
      <pubDate>Sun, 08 Mar 2026 12:55:10 +0800</pubDate>
      <guid>https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88%E6%9C%80%E5%85%88%E8%BF%9B%E7%9A%84ai%E4%BE%9D%E7%84%B6%E4%BC%9A%E7%BC%96%E9%80%A0%E4%BA%8B%E5%AE%9E%E4%BB%8E%E8%AE%AD%E7%BB%83%E6%9C%BA%E5%88%B6%E5%88%B0%E8%AF%84%E4%BC%B0%E9%99%B7%E9%98%B1%E7%9A%84%E6%8A%80%E6%9C%AF%E8%A7%A3%E5%AF%86/</guid>
      <description>深入解析大语言模型幻觉现象的科学机制。从2023年Mata v Avianca律师案到OpenAI 2025年论文的核心发现，系统阐述幻觉产生的根本原因：概率生成的本质、知识存储的线性解码机制、训练评估对&amp;#34;猜测&amp;#34;的奖励。涵盖幻觉类型分类（内在/外在、事实性/忠实性）、Vectara幻觉排行榜数据、RAG与Chain-of-Verification等缓解方案的技术权衡，以及温度参数对创造力与事实性的影响。</description>
    </item>
  </channel>
</rss>
