主动学习:当机器学会"提问"——如何用更少标注获得更强模型

标注:机器学习的阿喀琉斯之踵 机器学习领域有一个公开的秘密:算法越来越强,但数据标注的成本越来越高。 2010年,Burr Settles在其经典综述中记录了一个令人震惊的数据:语音识别中的音素标注,一分钟音频需要近七个小时才能完成。这不是个例。医学影像的分割标注,单张图像可能需要2-15分钟;法律文档的分类标注,需要资深律师逐字审阅;生物信息学中的基因标注,往往需要博士级别的专业知识。 ...

17 min · 8406 words

为什么高斯分布统治了机器学习的隐空间:从中心极限定理到扩散模型的数学真相

为什么高斯分布统治了机器学习的隐空间:从中心极限定理到扩散模型的数学真相 打开任何一个深度学习模型,你会发现高斯分布无处不在:权重初始化服从$\mathcal{N}(0, \sqrt{2/n})$,VAE的隐变量被约束为$\mathcal{N}(\mu, \sigma^2)$,扩散模型的前向过程逐步添加高斯噪声,连随机梯度下降的噪声都被近似为高斯分布。这不是巧合,也不是习惯使然——高斯分布对机器学习的统治,源于数学深处的必然性。 ...

22 min · 10636 words

当99%准确率成为谎言:机器学习评估指标的深层博弈

一个训练好的疾病诊断模型号称达到了95%的准确率,医疗团队欣喜若狂,准备将其投入临床使用。然而,当数据科学家深入检查后发现:这个模型只是简单地给所有患者都打上"健康"的标签——因为健康患者占总数的95%。 ...

25 min · 12290 words

数据增强技术:为何简单的变换能显著提升模型泛化能力

在深度学习的实践中,有一个现象困扰着无数从业者:当训练数据有限时,模型往往能轻松记住训练集,却在新数据上表现糟糕。这种过拟合问题催生了各种解决方案——正则化、Dropout、早停,但最简单有效的方法之一常常被忽视:直接制造更多数据。数据增强(Data Augmentation)正是这样一种看似朴素却蕴含深刻原理的技术。它通过对现有样本施加变换来生成新的训练样本,在不采集额外数据的情况下扩充训练集。但为什么简单的旋转、翻转或同义词替换就能显著提升模型泛化能力?这个问题的答案涉及统计学、优化理论和几何学习的深层原理。 ...

19 min · 9085 words

神经网络是如何学习的:从前向传播到反向传播的完整训练过程解析

当你点击"训练"按钮时,神经网络内部发生了什么? 想象你正在训练一个图像分类模型。你准备了数据集,设置了超参数,点击了"开始训练"按钮。屏幕上开始显示loss值不断下降,准确率不断上升。但在这些数字背后,究竟发生了什么?模型是如何从"一无所知"变成"精准识别"的? ...

17 min · 8161 words

损失函数全景解析:从MSE到Focal Loss,如何为不同任务选择正确的优化目标

训练神经网络时,最令人沮丧的事情之一是:模型结构设计得非常精巧,数据预处理也很完善,但训练结果却始终无法收敛,或者收敛到了一个糟糕的局部最优解。许多开发者在排错时首先怀疑的是模型架构、超参数或者数据质量,却往往忽略了深度学习中最基础也最重要的组件——损失函数。 ...

17 min · 8078 words

置信度校准:当大模型说"我有80%把握"时,它真的知道自己在说什么吗?

引言:当AI说出"我有80%把握"时,它真的知道自己在说什么吗? 2017年,斯坦福大学的研究生Chuan Guo发表了一篇论文,揭示了一个令人不安的现象:现代深度神经网络在预测准确率上远超早期模型,但它们对自己预测的置信度估计却变得更不可靠。一个可能达到99%分类准确率的模型,当它声称有99%的置信度时,实际正确率可能只有80%。 ...

4 min · 1890 words