Answer

残差连接：为什么 Transformer 能堆叠到百层而不梯度消失？

2015年，何凯明团队在ImageNet竞赛中提交了一个152层的神经网络模型。这个深度是当时主流模型的8倍，但训练误差却更低——这在当时简直是不可思议的事情。因为在那之前，人们普遍认为网络越深，训练越困难。实际上，研究者们观察到一个反直觉的现象：增加层数反而会让模型性能下降。 ...

大模型推理为什么第一个 Token 总是很慢：从 Prefill 到 Decode 的完整技术解析

当你向一个大语言模型发送请求时，可能会注意到一个有趣的现象：第一个字蹦出来总是慢半拍，但随后的字却如流水般涌出。这种"先慢后快"的节奏并非偶然，而是大模型推理机制的根本特性。 ...

Transformer 的注意力机制究竟在计算什么？从 QKV 到多头的完整解析

2017年，Google Research 团队发表论文《Attention Is All You Need》，提出了一种名为 Transformer 的神经网络架构。论文标题是一个明确的判断——在此之前的神经机器翻译模型依赖于循环神经网络（RNN）和卷积神经网络（CNN）的组合，而 Transformer 仅使用注意力机制就达到了当时的最优性能。 ...

大模型参数量与计算量：从Transformer架构到FLOPs计算的完整解析

当GPT-3在2020年问世时，其1750亿参数的规模震惊了整个AI界。三年后，LLaMA-70B用更少的参数达到了更好的效果。到了2024年，DeepSeek-V3以6710亿总参数但仅激活370亿参数的MoE架构重新定义了效率边界。这些数字背后隐藏着一套精确的数学逻辑——参数量如何决定计算量，计算量如何影响训练成本，以及如何在有限的算力预算下设计最优模型。 ...

Temperature 参数如何控制大模型的"创造性"与"确定性"

每个使用过大语言模型 API 的人都会遇到一个名为 Temperature 的参数。大多数时候，我们要么忽略它，要么随意调一下。但这个看似简单的数字，实际上决定了模型是"一本正经"还是"天马行空"。 ...

WebAssembly运行时系统：从沙箱隔离到分层编译的底层实现

2017年，WebAssembly正式成为W3C标准。七年后的今天，它已经从"浏览器的第四种语言"演变为跨平台运行时基础设施的核心。但WebAssembly的真正价值远不止于"比JavaScript快"——它的运行时系统设计蕴含着计算机科学中安全、性能、可移植性之间的精妙权衡。 ...

File System Access API：浏览器如何安全地跨越沙箱访问本地文件

2019 年，一个名为「Native File System API」的提案出现在 WICG（Web Incubator Community Group）的讨论区。它的目标很直接：让 Web 应用能够像原生应用一样读写用户的本地文件。三年后，Chrome 86 正式发布了这项功能，更名为 File System Access API。而在大洋彼岸，Mozilla 的工程师在 GitHub issue 中留下了五个字的评价：「harmful」（有害）。 ...