AI基础 on Answer

AI基础 on Answer https://answer.freetools.me/categories/ai%E5%9F%BA%E7%A1%80/ Recent content in AI基础 on Answer Hugo -- 0.152.2 zh-cn Thu, 12 Mar 2026 23:08:50 +0800 RNN为什么无法记住超过二十步的信息：从梯度消失到现代序列模型的四十年技术突围 https://answer.freetools.me/rnn%E4%B8%BA%E4%BB%80%E4%B9%88%E6%97%A0%E6%B3%95%E8%AE%B0%E4%BD%8F%E8%B6%85%E8%BF%87%E4%BA%8C%E5%8D%81%E6%AD%A5%E7%9A%84%E4%BF%A1%E6%81%AF%E4%BB%8E%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1%E5%88%B0%E7%8E%B0%E4%BB%A3%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%9B%9B%E5%8D%81%E5%B9%B4%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ Thu, 12 Mar 2026 23:08:50 +0800 https://answer.freetools.me/rnn%E4%B8%BA%E4%BB%80%E4%B9%88%E6%97%A0%E6%B3%95%E8%AE%B0%E4%BD%8F%E8%B6%85%E8%BF%87%E4%BA%8C%E5%8D%81%E6%AD%A5%E7%9A%84%E4%BF%A1%E6%81%AF%E4%BB%8E%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1%E5%88%B0%E7%8E%B0%E4%BB%A3%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%9B%9B%E5%8D%81%E5%B9%B4%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ 深入解析循环神经网络梯度消失问题的数学本质，从Hochreiter 1991年的开创性发现到LSTM的常数误差转盘机制，揭示为什么这个困扰深度学习三十年的问题催生了从门控循环单元到Transformer的完整技术演进。位置编码外推性：为什么Transformer无法处理比训练时更长的序列 https://answer.freetools.me/%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81%E5%A4%96%E6%8E%A8%E6%80%A7%E4%B8%BA%E4%BB%80%E4%B9%88transformer%E6%97%A0%E6%B3%95%E5%A4%84%E7%90%86%E6%AF%94%E8%AE%AD%E7%BB%83%E6%97%B6%E6%9B%B4%E9%95%BF%E7%9A%84%E5%BA%8F%E5%88%97/ Thu, 12 Mar 2026 17:23:09 +0800 https://answer.freetools.me/%E4%BD%8D%E7%BD%AE%E7%BC%96%E7%A0%81%E5%A4%96%E6%8E%A8%E6%80%A7%E4%B8%BA%E4%BB%80%E4%B9%88transformer%E6%97%A0%E6%B3%95%E5%A4%84%E7%90%86%E6%AF%94%E8%AE%AD%E7%BB%83%E6%97%B6%E6%9B%B4%E9%95%BF%E7%9A%84%E5%BA%8F%E5%88%97/ 位置编码外推性：为什么Transformer无法处理比训练时更长的序列 Token ID：大模型如何用一个数字代表一个词 https://answer.freetools.me/token-id%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%A6%82%E4%BD%95%E7%94%A8%E4%B8%80%E4%B8%AA%E6%95%B0%E5%AD%97%E4%BB%A3%E8%A1%A8%E4%B8%80%E4%B8%AA%E8%AF%8D/ Thu, 12 Mar 2026 07:50:29 +0800 https://answer.freetools.me/token-id%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%A6%82%E4%BD%95%E7%94%A8%E4%B8%80%E4%B8%AA%E6%95%B0%E5%AD%97%E4%BB%A3%E8%A1%A8%E4%B8%80%E4%B8%AA%E8%AF%8D/ 从分词器的词表构建到Embedding查找表，深入解析Token ID的数学本质、实现原理、以及在模型推理中的完整生命周期。涵盖BPE算法的Token ID分配机制、不同语言的Token效率差异、权重共享原理，以及Token ID如何影响模型的算术能力和多语言表现。梯度下降优化器：从SGD到AdamW，为什么这个选择能决定模型的命运 https://answer.freetools.me/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E4%BC%98%E5%8C%96%E5%99%A8%E4%BB%8Esgd%E5%88%B0adamw%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%AA%E9%80%89%E6%8B%A9%E8%83%BD%E5%86%B3%E5%AE%9A%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%91%BD%E8%BF%90/ Thu, 12 Mar 2026 06:04:32 +0800 https://answer.freetools.me/%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E4%BC%98%E5%8C%96%E5%99%A8%E4%BB%8Esgd%E5%88%B0adamw%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%AA%E9%80%89%E6%8B%A9%E8%83%BD%E5%86%B3%E5%AE%9A%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%91%BD%E8%BF%90/ 深入解析深度学习中梯度下降优化器的演进历程：从最基础的SGD到现代的AdamW，从Momentum到Nesterov，从AdaGrad到RMSprop。剖析为什么Adam收敛快却泛化不如SGD，为什么权重衰减需要解耦，以及不同场景下如何选择正确的优化器。大模型解码策略全景解析：从贪婪搜索到动态阈值采样的二十年演进 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%A7%A3%E7%A0%81%E7%AD%96%E7%95%A5%E5%85%A8%E6%99%AF%E8%A7%A3%E6%9E%90%E4%BB%8E%E8%B4%AA%E5%A9%AA%E6%90%9C%E7%B4%A2%E5%88%B0%E5%8A%A8%E6%80%81%E9%98%88%E5%80%BC%E9%87%87%E6%A0%B7%E7%9A%84%E4%BA%8C%E5%8D%81%E5%B9%B4%E6%BC%94%E8%BF%9B/ Wed, 11 Mar 2026 23:31:16 +0800 https://answer.freetools.me/%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%A7%A3%E7%A0%81%E7%AD%96%E7%95%A5%E5%85%A8%E6%99%AF%E8%A7%A3%E6%9E%90%E4%BB%8E%E8%B4%AA%E5%A9%AA%E6%90%9C%E7%B4%A2%E5%88%B0%E5%8A%A8%E6%80%81%E9%98%88%E5%80%BC%E9%87%87%E6%A0%B7%E7%9A%84%E4%BA%8C%E5%8D%81%E5%B9%B4%E6%BC%94%E8%BF%9B/ 深入解析大语言模型文本生成的核心机制——解码策略。从基础的贪婪解码、束搜索，到温度采样、Top-k、Top-p，再到前沿的Min-p、Top-n-sigma等动态阈值方法，全面梳理这一领域二十年的技术演进，并深入探讨ICLR 2025热门论文Min-p采样的学术争议。对话模板：大模型应用中最容易被忽视的隐形语言 https://answer.freetools.me/%E5%AF%B9%E8%AF%9D%E6%A8%A1%E6%9D%BF%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8%E4%B8%AD%E6%9C%80%E5%AE%B9%E6%98%93%E8%A2%AB%E5%BF%BD%E8%A7%86%E7%9A%84%E9%9A%90%E5%BD%A2%E8%AF%AD%E8%A8%80/ Wed, 11 Mar 2026 14:38:05 +0800 https://answer.freetools.me/%E5%AF%B9%E8%AF%9D%E6%A8%A1%E6%9D%BF%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%BA%94%E7%94%A8%E4%B8%AD%E6%9C%80%E5%AE%B9%E6%98%93%E8%A2%AB%E5%BF%BD%E8%A7%86%E7%9A%84%E9%9A%90%E5%BD%A2%E8%AF%AD%E8%A8%80/ 深入解析大语言模型对话模板的设计原理、格式差异与技术演进。从ChatML到Llama 3、Mistral的[INST]格式，再到ChatBug安全漏洞，全面揭示这个连接用户输入与模型输出的关键桥梁如何影响模型表现、安全性与生态碎片化。