Logit Lens:Transformer的每一层都在"想"什么

当一个大语言模型输出"巴黎是法国的首都"时,这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中,每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程? ...

18 min · 8815 words

当99%准确率成为谎言:机器学习评估指标的深层博弈

一个训练好的疾病诊断模型号称达到了95%的准确率,医疗团队欣喜若狂,准备将其投入临床使用。然而,当数据科学家深入检查后发现:这个模型只是简单地给所有患者都打上"健康"的标签——因为健康患者占总数的95%。 ...

25 min · 12290 words

损失函数全景解析:从MSE到Focal Loss,如何为不同任务选择正确的优化目标

训练神经网络时,最令人沮丧的事情之一是:模型结构设计得非常精巧,数据预处理也很完善,但训练结果却始终无法收敛,或者收敛到了一个糟糕的局部最优解。许多开发者在排错时首先怀疑的是模型架构、超参数或者数据质量,却往往忽略了深度学习中最基础也最重要的组件——损失函数。 ...

17 min · 8078 words

交叉熵损失函数:为什么这个公式统治了深度学习的概率预测

当一个语言模型预测下一个词时,它输出的是整个词表上的概率分布。比如在"今天天气很"这个上下文后,模型可能给出"好"的概率是0.7,“差"的概率是0.2,“热"的概率是0.08,其他词的概率更低。如果真实的下一个词确实是"好”,我们如何量化模型预测的质量?更进一步,如何设计一个可微分的损失函数,让模型能够通过梯度下降不断优化这个预测能力? ...

10 min · 4856 words

零训练成本的多任务融合:从Task Arithmetic到TIES-Merging的模型合并革命

Hugging Face 上托管着超过50万个预训练模型,每天都有新的微调版本被上传。一个团队可能为文本分类训练了BERT,另一个团队为命名实体识别微调了T5,第三个团队为情感分析优化了RoBERTa。当需要构建一个同时具备这三种能力的系统时,传统做法是部署三个独立模型——但这意味着三倍的存储成本、三倍的GPU显存占用和三倍的推理延迟。 ...

7 min · 3356 words

垃圾邮件过滤的三十年战争:从规则引擎到神经网络的进化之路

1978年5月3日,数字设备公司(DEC)的市场经理Gary Thuerk做了一件在当时看来平平无奇的事:他给ARPANET上的393个用户发了一封邮件,宣传公司的新产品演示会。邮件主题是"DIGITAL WILL BE GIVING A PRODUCT PRESENTATION OF THE NEWEST MEMBERS OF THE DECSYSTEM-20 FAMILY"。 ...

15 min · 7405 words