EOS Token:为什么这个特殊标记决定了大模型的说话边界

当你在 ChatGPT 中输入一个问题,模型生成一段流畅的回答后优雅地停下——这个看似简单的"停止"动作背后,隐藏着一个被大多数人忽视却至关重要的机制:EOS Token。这个特殊的词汇表条目,像一个隐形的句号,决定了大模型何时该闭嘴。 ...

17 min · 8401 words

Encoder-Only、Decoder-Only和Encoder-Decoder:为什么这三种架构统治了Transformer的七年演变

从一个问题说起 如果你问一位NLP研究者:“为什么GPT选择了Decoder-only架构,而BERT选择了Encoder-only?“答案可能涉及双向注意力、因果掩码、预训练目标……但如果你追问:“那为什么现在的千亿参数大模型几乎清一色是Decoder-only?“很多人可能就说不清楚了。 ...

12 min · 5834 words
Blog Cover

提示词工程的技术原理:为什么同样的意思不同的问法,大模型的回答天差地别

一个困惑的起点 你问 GPT-4:“告诉我关于量子纠缠的事情”,它给你一段教科书式的定义。你换个说法:“量子纠缠到底有多诡异?能用通俗的方式解释吗?“回答变得生动有趣,甚至还用了比喻。 ...

18 min · 8950 words

不是所有 Token 都值得被同等对待:Mixture-of-Depths 如何重塑 Transformer 的计算范式

传统 Transformer 有一个很少有人质疑的设计假设:序列中的每一个 token,无论其重要性如何,都必须经过完全相同数量的层进行处理。一个简单的"的"字和一个承载核心语义的动词,在计算资源上被一视同仁。这种"计算平均主义"在大模型时代显得尤为奢侈——当参数量飙升至千亿级别,每一个不必要的 FLOP 都在消耗真金白银。 ...

11 min · 5443 words

零训练成本的多任务融合:从Task Arithmetic到TIES-Merging的模型合并革命

Hugging Face 上托管着超过50万个预训练模型,每天都有新的微调版本被上传。一个团队可能为文本分类训练了BERT,另一个团队为命名实体识别微调了T5,第三个团队为情感分析优化了RoBERTa。当需要构建一个同时具备这三种能力的系统时,传统做法是部署三个独立模型——但这意味着三倍的存储成本、三倍的GPU显存占用和三倍的推理延迟。 ...

7 min · 3356 words