RNN为什么无法记住超过二十步的信息:从梯度消失到现代序列模型的四十年技术突围
1986年,Michael I. Jordan在研究认知心理学时提出了一个革命性的想法:让神经网络拥有"记忆"。这个被称为Jordan网络的架构,首次实现了神经网络对序列数据的处理能力。四年后,Jeffrey Elman简化了这个设计,创造了现在被称为简单循环网络(SRN)的经典RNN架构。 ...
1986年,Michael I. Jordan在研究认知心理学时提出了一个革命性的想法:让神经网络拥有"记忆"。这个被称为Jordan网络的架构,首次实现了神经网络对序列数据的处理能力。四年后,Jeffrey Elman简化了这个设计,创造了现在被称为简单循环网络(SRN)的经典RNN架构。 ...
把三句话塞进一个batch里,会发生什么? “我是一只猫"有4个token,“今天天气真好"也是4个,而"人工智能正在改变世界,从医疗到教育,从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...
一个被误解的定理 在深度学习面试中,经常会出现这样一个问题:为什么神经网络需要非线性激活函数? 很多人会回答"因为线性函数的组合仍然是线性的"。但这个回答虽然正确,却只触及了问题的表面。更深层次的问题是:为什么加上非线性激活函数后,神经网络就能逼近任意复杂的函数? ...
引言:为什么大模型推理需要专门的框架 当你向ChatGPT提问时,背后的推理系统每秒需要处理数百万次的矩阵乘法运算。与传统的神经网络推理不同,大语言模型的推理具有独特的性能特征:自回归生成导致每个请求的输出长度不可预测,KV缓存的动态增长使得内存管理成为核心挑战,而预填充与解码两个阶段截然不同的计算模式,更是要求系统设计者在延迟和吞吐量之间进行精细权衡。 ...
一个训练好的疾病诊断模型号称达到了95%的准确率,医疗团队欣喜若狂,准备将其投入临床使用。然而,当数据科学家深入检查后发现:这个模型只是简单地给所有患者都打上"健康"的标签——因为健康患者占总数的95%。 ...
Layer Normalization的可学习参数:为什么gamma和beta正在从大模型中消失 2016年,Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在论文《Layer Normalization》中提出了一个看似简单的设计:在归一化操作后添加两个可学习参数gamma和beta。九年后的今天,LLaMA、Mistral、Gemma等主流大模型都在悄悄移除这些参数——或者至少移除其中一部分。这个趋势背后隐藏着怎样的技术逻辑? ...
当你告诉大模型"不要在代码中使用eval函数",它偏偏生成了包含eval的代码;当你问"哪些水果不是红色的",它列出了红苹果和草莓。这不是个例,而是一个困扰了自然语言处理领域十年的顽疾。 ...