Posts

RNN为什么无法记住超过二十步的信息：从梯度消失到现代序列模型的四十年技术突围

1986年，Michael I. Jordan在研究认知心理学时提出了一个革命性的想法：让神经网络拥有"记忆"。这个被称为Jordan网络的架构，首次实现了神经网络对序列数据的处理能力。四年后，Jeffrey Elman简化了这个设计，创造了现在被称为简单循环网络(SRN)的经典RNN架构。 ...

变长序列处理：大模型如何应对长短不一的输入

把三句话塞进一个batch里，会发生什么？ “我是一只猫"有4个token，“今天天气真好"也是4个，而"人工智能正在改变世界，从医疗到教育，从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

万能逼近定理：为什么两层神经网络能逼近任意函数

一个被误解的定理在深度学习面试中，经常会出现这样一个问题：为什么神经网络需要非线性激活函数？很多人会回答"因为线性函数的组合仍然是线性的"。但这个回答虽然正确，却只触及了问题的表面。更深层次的问题是：为什么加上非线性激活函数后，神经网络就能逼近任意复杂的函数？ ...

大模型推理框架的技术博弈：从vLLM到TensorRT-LLM，解析三大框架的设计哲学与性能突围

引言：为什么大模型推理需要专门的框架当你向ChatGPT提问时，背后的推理系统每秒需要处理数百万次的矩阵乘法运算。与传统的神经网络推理不同，大语言模型的推理具有独特的性能特征：自回归生成导致每个请求的输出长度不可预测，KV缓存的动态增长使得内存管理成为核心挑战，而预填充与解码两个阶段截然不同的计算模式，更是要求系统设计者在延迟和吞吐量之间进行精细权衡。 ...

当99%准确率成为谎言：机器学习评估指标的深层博弈

一个训练好的疾病诊断模型号称达到了95%的准确率，医疗团队欣喜若狂，准备将其投入临床使用。然而，当数据科学家深入检查后发现：这个模型只是简单地给所有患者都打上"健康"的标签——因为健康患者占总数的95%。 ...

Layer Normalization的可学习参数：为什么gamma和beta正在从大模型中消失

Layer Normalization的可学习参数：为什么gamma和beta正在从大模型中消失 2016年，Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在论文《Layer Normalization》中提出了一个看似简单的设计：在归一化操作后添加两个可学习参数gamma和beta。九年后的今天，LLaMA、Mistral、Gemma等主流大模型都在悄悄移除这些参数——或者至少移除其中一部分。这个趋势背后隐藏着怎样的技术逻辑？ ...

大模型为何读不懂"不"字：从注意力机制到训练数据的否定词困境

当你告诉大模型"不要在代码中使用eval函数"，它偏偏生成了包含eval的代码；当你问"哪些水果不是红色的"，它列出了红苹果和草莓。这不是个例，而是一个困扰了自然语言处理领域十年的顽疾。 ...