自注意力与交叉注意力:Transformer如何用两种机制处理「同一序列」与「两个世界」

2017年,Vaswani等人在论文《Attention Is All You Need》中提出了Transformer架构。这篇论文的核心洞察可以用一句话概括:循环神经网络并非处理序列数据的唯一途径,注意力机制本身就足够了。 ...

17 min · 8389 words
Blog Cover

大模型如何"看"图像:从CLIP对比学习到视觉语言模型的跨模态融合之路

2024年5月,OpenAI发布GPT-4o,这个模型能实时"看"你手机屏幕上的内容并回答问题。对着一张复杂的电路图问"这个电阻的阻值是多少",它能准确定位并读出数值;给它一张手绘的流程图,它能理解逻辑关系并生成代码实现。 ...

20 min · 9741 words

多模态大模型架构的五年演进:从CLIP的对齐革命到视觉语言融合的范式突破

2021年1月5日,OpenAI发布了一篇看似普通的论文。论文标题很长——《Learning Transferable Visual Models From Natural Language Supervision》,但核心贡献可以用一句话概括:用4亿对网络图片和描述文本,训练出了一个能"看懂"图像的模型。这个模型叫CLIP,它没有在当时引起轰动,却在随后的五年里重塑了整个人工智能领域的技术路线。 ...

13 min · 6414 words