大语言模型 on Answer

大语言模型 on Answer https://answer.freetools.me/tags/%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B/ Recent content in 大语言模型 on Answer Hugo -- 0.152.2 zh-cn Thu, 12 Mar 2026 04:29:51 +0800 EOS Token：为什么这个特殊标记决定了大模型的说话边界 https://answer.freetools.me/eos-token%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%AA%E7%89%B9%E6%AE%8A%E6%A0%87%E8%AE%B0%E5%86%B3%E5%AE%9A%E4%BA%86%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E8%AF%B4%E8%AF%9D%E8%BE%B9%E7%95%8C/ Thu, 12 Mar 2026 04:29:51 +0800 https://answer.freetools.me/eos-token%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%AA%E7%89%B9%E6%AE%8A%E6%A0%87%E8%AE%B0%E5%86%B3%E5%AE%9A%E4%BA%86%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E8%AF%B4%E8%AF%9D%E8%BE%B9%E7%95%8C/ 深入解析大语言模型中 EOS (End of Sequence) Token 的工作原理、训练机制、跨模型实现差异，以及斯坦福大学关于 EOS 决策与长度外推的前沿研究发现。 Encoder-Only、Decoder-Only和Encoder-Decoder：为什么这三种架构统治了Transformer的七年演变 https://answer.freetools.me/encoder-onlydecoder-only%E5%92%8Cencoder-decoder%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%89%E7%A7%8D%E6%9E%B6%E6%9E%84%E7%BB%9F%E6%B2%BB%E4%BA%86transformer%E7%9A%84%E4%B8%83%E5%B9%B4%E6%BC%94%E5%8F%98/ Wed, 11 Mar 2026 21:41:00 +0800 https://answer.freetools.me/encoder-onlydecoder-only%E5%92%8Cencoder-decoder%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%89%E7%A7%8D%E6%9E%B6%E6%9E%84%E7%BB%9F%E6%B2%BB%E4%BA%86transformer%E7%9A%84%E4%B8%83%E5%B9%B4%E6%BC%94%E5%8F%98/ 深入解析Encoder-only、Decoder-only和Encoder-Decoder三种Transformer架构的本质差异，从注意力矩阵的秩问题到训练推理效率，揭示Decoder-only在大模型时代占据主导地位的原因。提示词工程的技术原理：为什么同样的意思不同的问法，大模型的回答天差地别 https://answer.freetools.me/%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%B7%A5%E7%A8%8B%E7%9A%84%E6%8A%80%E6%9C%AF%E5%8E%9F%E7%90%86%E4%B8%BA%E4%BB%80%E4%B9%88%E5%90%8C%E6%A0%B7%E7%9A%84%E6%84%8F%E6%80%9D%E4%B8%8D%E5%90%8C%E7%9A%84%E9%97%AE%E6%B3%95%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%9B%9E%E7%AD%94%E5%A4%A9%E5%B7%AE%E5%9C%B0%E5%88%AB/ Wed, 11 Mar 2026 18:59:19 +0800 https://answer.freetools.me/%E6%8F%90%E7%A4%BA%E8%AF%8D%E5%B7%A5%E7%A8%8B%E7%9A%84%E6%8A%80%E6%9C%AF%E5%8E%9F%E7%90%86%E4%B8%BA%E4%BB%80%E4%B9%88%E5%90%8C%E6%A0%B7%E7%9A%84%E6%84%8F%E6%80%9D%E4%B8%8D%E5%90%8C%E7%9A%84%E9%97%AE%E6%B3%95%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%9B%9E%E7%AD%94%E5%A4%A9%E5%B7%AE%E5%9C%B0%E5%88%AB/ 从注意力机制的数学原理出发，深入剖析提示词工程的核心技术：为什么同样的意思不同的问法会导致天差地别的输出？文章涵盖思维链推理、U型注意力曲线、少样本学习、系统提示词优先级、采样参数协同、提示词注入防御等关键技术，结合代码示例和可视化图表，帮助你真正理解提示词背后的技术本质。不是所有 Token 都值得被同等对待：Mixture-of-Depths 如何重塑 Transformer 的计算范式 https://answer.freetools.me/%E4%B8%8D%E6%98%AF%E6%89%80%E6%9C%89-token-%E9%83%BD%E5%80%BC%E5%BE%97%E8%A2%AB%E5%90%8C%E7%AD%89%E5%AF%B9%E5%BE%85mixture-of-depths-%E5%A6%82%E4%BD%95%E9%87%8D%E5%A1%91-transformer-%E7%9A%84%E8%AE%A1%E7%AE%97%E8%8C%83%E5%BC%8F/ Mon, 09 Mar 2026 07:42:35 +0800 https://answer.freetools.me/%E4%B8%8D%E6%98%AF%E6%89%80%E6%9C%89-token-%E9%83%BD%E5%80%BC%E5%BE%97%E8%A2%AB%E5%90%8C%E7%AD%89%E5%AF%B9%E5%BE%85mixture-of-depths-%E5%A6%82%E4%BD%95%E9%87%8D%E5%A1%91-transformer-%E7%9A%84%E8%AE%A1%E7%AE%97%E8%8C%83%E5%BC%8F/ 深入解析 Google DeepMind 提出的 Mixture-of-Depths 架构，探讨如何通过动态计算分配重塑 Transformer 的效率范式。从条件计算的演进历史到路由机制的设计细节，再到 MoDification 等后续改进，全面呈现这一技术路线的核心洞见与实践权衡。零训练成本的多任务融合：从Task Arithmetic到TIES-Merging的模型合并革命 https://answer.freetools.me/%E9%9B%B6%E8%AE%AD%E7%BB%83%E6%88%90%E6%9C%AC%E7%9A%84%E5%A4%9A%E4%BB%BB%E5%8A%A1%E8%9E%8D%E5%90%88%E4%BB%8Etask-arithmetic%E5%88%B0ties-merging%E7%9A%84%E6%A8%A1%E5%9E%8B%E5%90%88%E5%B9%B6%E9%9D%A9%E5%91%BD/ Mon, 09 Mar 2026 06:46:30 +0800 https://answer.freetools.me/%E9%9B%B6%E8%AE%AD%E7%BB%83%E6%88%90%E6%9C%AC%E7%9A%84%E5%A4%9A%E4%BB%BB%E5%8A%A1%E8%9E%8D%E5%90%88%E4%BB%8Etask-arithmetic%E5%88%B0ties-merging%E7%9A%84%E6%A8%A1%E5%9E%8B%E5%90%88%E5%B9%B6%E9%9D%A9%E5%91%BD/ 零训练成本的多任务融合：从Task Arithmetic到TIES-Merging的模型合并革命