机器学习 | Answer

Logit Lens：Transformer的每一层都在"想"什么

当一个大语言模型输出"巴黎是法国的首都"时，这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中，每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程？ ...

当99%准确率成为谎言：机器学习评估指标的深层博弈

一个训练好的疾病诊断模型号称达到了95%的准确率，医疗团队欣喜若狂，准备将其投入临床使用。然而，当数据科学家深入检查后发现：这个模型只是简单地给所有患者都打上"健康"的标签——因为健康患者占总数的95%。 ...

损失函数全景解析：从MSE到Focal Loss，如何为不同任务选择正确的优化目标

训练神经网络时，最令人沮丧的事情之一是：模型结构设计得非常精巧，数据预处理也很完善，但训练结果却始终无法收敛，或者收敛到了一个糟糕的局部最优解。许多开发者在排错时首先怀疑的是模型架构、超参数或者数据质量，却往往忽略了深度学习中最基础也最重要的组件——损失函数。 ...

交叉熵损失函数：为什么这个公式统治了深度学习的概率预测

当一个语言模型预测下一个词时，它输出的是整个词表上的概率分布。比如在"今天天气很"这个上下文后，模型可能给出"好"的概率是0.7，“差"的概率是0.2，“热"的概率是0.08，其他词的概率更低。如果真实的下一个词确实是"好”，我们如何量化模型预测的质量？更进一步，如何设计一个可微分的损失函数，让模型能够通过梯度下降不断优化这个预测能力？ ...

零训练成本的多任务融合：从Task Arithmetic到TIES-Merging的模型合并革命

Hugging Face 上托管着超过50万个预训练模型，每天都有新的微调版本被上传。一个团队可能为文本分类训练了BERT，另一个团队为命名实体识别微调了T5，第三个团队为情感分析优化了RoBERTa。当需要构建一个同时具备这三种能力的系统时，传统做法是部署三个独立模型——但这意味着三倍的存储成本、三倍的GPU显存占用和三倍的推理延迟。 ...

垃圾邮件过滤的三十年战争：从规则引擎到神经网络的进化之路

1978年5月3日，数字设备公司（DEC）的市场经理Gary Thuerk做了一件在当时看来平平无奇的事：他给ARPANET上的393个用户发了一封邮件，宣传公司的新产品演示会。邮件主题是"DIGITAL WILL BE GIVING A PRODUCT PRESENTATION OF THE NEWEST MEMBERS OF THE DECSYSTEM-20 FAMILY"。 ...