大模型代码生成能力的边界与突破——从语法理解到语义推理的技术解析

2022年末,GitHub Copilot的月活用户突破150万,Stack Overflow的流量却在一年内下跌了35%。代码生成大模型正在重塑程序员的日常工作方式。然而,当开发者们习惯性地将需求抛给AI,期待一段可运行的代码时,一个更深层的问题常常被忽略:这些模型究竟是在"理解"代码,还是仅仅在进行某种高级的模式匹配? ...

14 min · 6978 words

Logit Lens:Transformer的每一层都在"想"什么

当一个大语言模型输出"巴黎是法国的首都"时,这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中,每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程? ...

18 min · 8815 words

大模型如何选择下一个词:从概率预测到文本生成的完整技术链路

引言:模型输出的真正面目 当你在ChatGPT中输入一个问题,屏幕上逐字显现答案时,你是否想过:模型内部发生了什么?它是如何决定下一个词的? 很多人以为大语言模型直接输出文字,这是一个普遍的误解。事实上,模型的输出是一个由数万个数字组成的向量——每个数字对应词表中的一个词,代表该词成为"下一个词"的原始分数。这个分数,在技术术语中被称为Logit。 ...

17 min · 8098 words

知识蒸馏:为什么大模型能教小模型学会本事

2015年3月,Geoffrey Hinton在arXiv上发表了一篇只有9页的论文,标题是《Distilling the Knowledge in a Neural Network》。这篇论文没有提出什么新的网络架构,也没有刷新任何榜单,却彻底改变了模型部署的游戏规则。 ...

18 min · 8568 words

语言模型的概率本质:从条件概率到下一个词预测的数学之旅

从一个预测游戏说起 当我们在说话或写作时,大脑在不停地进行一个预测游戏:根据已经说出的内容,预测下一个最可能出现的词。这个看似简单的认知过程,恰恰是现代大语言模型的核心工作原理。 ...

21 min · 10236 words
Blog Cover

大模型是如何被训练出来的?从预训练到对齐的三阶段技术全景

当我们与一个训练完成的大语言模型对话时,它似乎能理解我们的问题、组织连贯的回答、甚至在某些领域展现出接近专家的知识水平。但这个"智能体"并非凭空诞生——在它能说出第一句话之前,背后是一个历时数月、耗资千万美元、涉及万亿级token的复杂训练过程。 ...

18 min · 8885 words

大模型为何总被一句话越狱:从角色扮演到梯度优化的攻防技术演进

2023年2月,Reddit上一位用户发现,只需让ChatGPT扮演一个名为"DAN"(Do Anything Now)的角色,就能绕过模型的安全限制,让它回答本应拒绝的问题。这个看似简单的角色扮演提示,揭示了深度学习模型安全对齐的深层脆弱性。 ...

13 min · 6059 words