AI | Answer

损失函数全景解析：从MSE到Focal Loss，如何为不同任务选择正确的优化目标

训练神经网络时，最令人沮丧的事情之一是：模型结构设计得非常精巧，数据预处理也很完善，但训练结果却始终无法收敛，或者收敛到了一个糟糕的局部最优解。许多开发者在排错时首先怀疑的是模型架构、超参数或者数据质量，却往往忽略了深度学习中最基础也最重要的组件——损失函数。 ...

Temperature=0为什么不等于确定性输出：大模型推理非确定性的完整技术解析

一个被广泛接受的观点是：只要将大模型的Temperature参数设为0，就能获得确定性的输出。这个直觉看起来很合理——Temperature=0意味着贪婪采样，模型总是选择概率最高的那个token，没有随机性，结果应该可复现。 ...

序列长度增加一倍，推理时间翻四倍？Transformer注意力复杂度的技术真相

把一篇2000字的文章喂给大模型，它能在毫秒级返回摘要。但当你把一篇20000字的长文档扔进去，等待第一个输出的时间可能从几百毫秒延长到几秒甚至更久。更诡异的是，生成后续内容的速度却没有明显下降。 ...

大模型的上下文窗口：从Token限制到有效上下文管理的完整解析

大模型的上下文窗口：从Token限制到有效上下文管理的完整解析当你向一个语言模型发送请求时，你有没有想过：为什么有些模型只能处理几千字，而有些却能吞下整本书？为什么即便模型声称支持128K上下文，你的长文档问答效果却时好时坏？为什么同样的提示词放在文档开头和中间，模型的回答准确率会相差几十个百分点？ ...

Logits：神经网络输出的原始真相，从概念到实践的完整解析

当你问一个大语言模型"法国的首都是哪里？"，它回答"巴黎"。这个看似简单的过程背后，模型经历了一系列复杂的计算。在最终的文字出现之前，模型首先要给出一个答案：对于词表中的每一个词，它认为这个词作为下一个输出的可能性有多大。这个"可能性"的原始形式，就是logits。 ...

混合精度训练：为什么用一半精度反而能训练更好的模型

训练大模型时，显存总是第一个瓶颈。以一个拥有70亿参数的LLaMA 7B模型为例，仅存储FP32权重就需要约28GB显存。再加上梯度、优化器状态和中间激活值，即使是一张A100 80GB显卡也可能捉襟见肘。 ...

Seed参数：为什么这个整数能决定大模型的输出轨迹

一个看似简单的参数当你第一次在API文档中看到seed参数时，可能会觉得它只是一个普通的整数。但这个看似简单的参数，却隐藏着大语言模型推理过程中最深层的随机性控制机制。 ...