EOS Token:为什么这个特殊标记决定了大模型的说话边界

当你在 ChatGPT 中输入一个问题,模型生成一段流畅的回答后优雅地停下——这个看似简单的"停止"动作背后,隐藏着一个被大多数人忽视却至关重要的机制:EOS Token。这个特殊的词汇表条目,像一个隐形的句号,决定了大模型何时该闭嘴。 ...

17 min · 8401 words

参数高效微调:为什么0.1%的参数能做到全参数微调99%的效果

2021年,微软的研究团队提出了一个看似不可能的假设:如果预训练模型学到的知识实际上只存在于一个极低维的子空间中,那么微调是否只需要更新这个子空间就足够了? ...

14 min · 6798 words
Blog Cover

大模型是如何被训练出来的?从预训练到对齐的三阶段技术全景

当我们与一个训练完成的大语言模型对话时,它似乎能理解我们的问题、组织连贯的回答、甚至在某些领域展现出接近专家的知识水平。但这个"智能体"并非凭空诞生——在它能说出第一句话之前,背后是一个历时数月、耗资千万美元、涉及万亿级token的复杂训练过程。 ...

18 min · 8885 words