Posts

数据增强技术：为何简单的变换能显著提升模型泛化能力

在深度学习的实践中，有一个现象困扰着无数从业者：当训练数据有限时，模型往往能轻松记住训练集，却在新数据上表现糟糕。这种过拟合问题催生了各种解决方案——正则化、Dropout、早停，但最简单有效的方法之一常常被忽视：直接制造更多数据。数据增强（Data Augmentation）正是这样一种看似朴素却蕴含深刻原理的技术。它通过对现有样本施加变换来生成新的训练样本，在不采集额外数据的情况下扩充训练集。但为什么简单的旋转、翻转或同义词替换就能显著提升模型泛化能力？这个问题的答案涉及统计学、优化理论和几何学习的深层原理。 ...

神经网络是如何学习的：从前向传播到反向传播的完整训练过程解析

当你点击"训练"按钮时，神经网络内部发生了什么？想象你正在训练一个图像分类模型。你准备了数据集，设置了超参数，点击了"开始训练"按钮。屏幕上开始显示loss值不断下降，准确率不断上升。但在这些数字背后，究竟发生了什么？模型是如何从"一无所知"变成"精准识别"的？ ...

损失函数全景解析：从MSE到Focal Loss，如何为不同任务选择正确的优化目标

训练神经网络时，最令人沮丧的事情之一是：模型结构设计得非常精巧，数据预处理也很完善，但训练结果却始终无法收敛，或者收敛到了一个糟糕的局部最优解。许多开发者在排错时首先怀疑的是模型架构、超参数或者数据质量，却往往忽略了深度学习中最基础也最重要的组件——损失函数。 ...

置信度校准：当大模型说"我有80%把握"时，它真的知道自己在说什么吗？

引言：当AI说出"我有80%把握"时，它真的知道自己在说什么吗？ 2017年，斯坦福大学的研究生Chuan Guo发表了一篇论文，揭示了一个令人不安的现象：现代深度神经网络在预测准确率上远超早期模型，但它们对自己预测的置信度估计却变得更不可靠。一个可能达到99%分类准确率的模型，当它声称有99%的置信度时，实际正确率可能只有80%。 ...

Temperature=0为什么不等于确定性输出：大模型推理非确定性的完整技术解析

一个被广泛接受的观点是：只要将大模型的Temperature参数设为0，就能获得确定性的输出。这个直觉看起来很合理——Temperature=0意味着贪婪采样，模型总是选择概率最高的那个token，没有随机性，结果应该可复现。 ...

为什么大模型每次回答都不一样：从温度参数到批次不变性的完整技术解析

当你向ChatGPT连续两次提出相同的问题，大概率会得到两个不同的回答。很多人知道这是温度参数在作怪，但把温度调到0就能保证确定性吗？答案是否定的。即使temperature=0，OpenAI的API仍然可能返回不同的结果，而你自己部署的开源模型在vLLM或SGLang上推理时，输出同样不稳定。 ...

偏置项的消亡：为什么现代大模型删除了这个看似必不可少的参数

一个反直觉的设计选择如果你在2018年告诉一个深度学习研究者，未来最先进的大语言模型会删除所有线性层的偏置项，他们可能会觉得你疯了。毕竟，偏置项是神经网络最基础的组成部分之一——从单层感知机到深度卷积网络，几乎每一个神经元的输出都包含一个偏置参数。 ...