机器学习 | Answer

过拟合、欠拟合与偏差-方差权衡：机器学习最核心困境的完整解析

训练一个机器学习模型时，最令人沮丧的场景莫过于：训练集上的准确率高达 99%，但在测试集上却跌落到 60%。这不是代码 bug，也不是数据问题——这是机器学习最核心的困境：过拟合（Overfitting）。 ...

Sigmoid与Softmax：多分类与多标签任务的激活函数选择逻辑

打开任何一本深度学习教材，或者浏览机器学习面试题库，几乎都会遇到这个问题：多分类任务应该用Sigmoid还是Softmax？答案似乎很简单——多分类用Softmax，二分类用Sigmoid。但当面试官追问"为什么"时，很多人就卡住了。更麻烦的是多标签分类场景：一个样本同时属于多个类别，这时候该用什么？ ...

Early Stopping：为什么"提前终止"能拯救你的模型免于过拟合

训练一个神经网络时，最令人沮丧的场景莫过于：训练损失持续下降，模型在训练集上的表现越来越好，但当你把它部署到真实环境时，效果却一塌糊涂。过拟合——这个困扰深度学习实践者的问题，有一个看似简单却异常有效的解决方案：Early Stopping（早停法）。 ...

自动微分与反向传播为什么这个六十岁的算法是深度学习的基石

引言：一个被误读了四十年的算法如果你问一个机器学习从业者：“反向传播算法是谁发明的？“大多数人的回答会是：“Geoffrey Hinton和他的合作者在1986年提出的。“这个答案听起来理所当然——毕竟，Hinton被称为"深度学习之父”，而那篇发表在《Nature》上的论文《Learning representations by back-propagating errors》至今仍被奉为经典。 ...

预训练数据如何决定大模型的上限：从数据质量到清洗流程的完整解析

当LLaMA 3在2024年发布时，一个引人注目的细节被埋没在技术报告的角落：尽管训练数据从LLaMA 2的1.8万亿token增长到15万亿token，但数据清洗管道的改进才是模型性能飞跃的真正推手。Meta团队开发了复杂的数据处理流水线，包括启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器——这套系统让模型在更少训练步数下实现了更好的性能。 ...

权重初始化：为什么一行代码能决定神经网络的生死

2010年，Xavier Glorot和Yoshua Bengio在AISTATS会议上发表了一篇论文，标题是《Understanding the difficulty of training deep feedforward neural networks》。这篇论文揭示了一个困扰深度学习社区多年的问题：为什么深层神经网络在随机初始化下难以训练？他们提出了一种新的初始化方案，后来被称为Xavier初始化。五年后，何恺明等人针对ReLU激活函数提出了He初始化。这两种初始化方法至今仍是现代神经网络训练的基础。 ...

向量嵌入：从离散符号到连续语义空间的数学革命

搜索"如何学习编程"和"编程入门方法"，传统关键词匹配系统会认为这两个查询毫无关系——它们没有共享任何关键词。但人类一眼就能看出这是同一类问题。这个鸿沟困扰了信息检索领域数十年，直到向量嵌入技术给出了一个优雅的数学答案：把文字映射到连续向量空间，让语义相似的文本在几何空间中靠近。 ...