MLM | Answer

2017年，《Attention Is All You Need》论文提出了Transformer架构，彻底改变了自然语言处理的范式。然而，这个架构很快分化为两条截然不同的发展路径：一条以BERT为代表的编码器路线，通过掩码语言模型(Masked Language Modeling, MLM)学习双向上下文表示；另一条以GPT为代表的解码器路线，通过因果语言模型(Causal Language Modeling, CLM)实现自回归文本生成。 ...