大模型代码生成能力的边界与突破——从语法理解到语义推理的技术解析

2022年末,GitHub Copilot的月活用户突破150万,Stack Overflow的流量却在一年内下跌了35%。代码生成大模型正在重塑程序员的日常工作方式。然而,当开发者们习惯性地将需求抛给AI,期待一段可运行的代码时,一个更深层的问题常常被忽略:这些模型究竟是在"理解"代码,还是仅仅在进行某种高级的模式匹配? ...

14 min · 6978 words

图像超分辨率:为什么AI能把模糊照片变清晰?从插值到扩散模型的技术突围

一张低分辨率照片放大后变得模糊,这是再正常不过的事情。但近年来,AI似乎能够"凭空"创造出照片放大后本不存在的细节——毛孔纹理、发丝走向、织物纤维。这种近乎魔法的能力背后,是一个困扰计算机视觉领域数十年的数学难题,以及三代技术范式的迭代演进。 ...

20 min · 10011 words

Logit Lens:Transformer的每一层都在"想"什么

当一个大语言模型输出"巴黎是法国的首都"时,这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中,每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程? ...

18 min · 8815 words

隐藏层维度:为什么这个数字决定了大模型的能力边界

打开任何一个大模型的配置文件,你总能看到一些神秘的数字:BERT的768,GPT-2的1024,LLaMA-7B的4096,GPT-3的12288。这些数字从何而来?为什么不是769或4095?为什么LLaMA选择4096而GPT-3选择12288?更关键的是,这个被称为"隐藏层维度"或"隐藏尺寸"的参数,究竟如何影响模型的能力边界? ...

16 min · 7669 words

Logprobs深度解析:大模型输出的隐藏信息

当你问一个大模型一个问题,它吐出一串文字作为回答。这个过程看似简单,但模型内部究竟发生了什么?它有多确信自己的答案?如果它在"胡编乱造",我们能否察觉? ...

19 min · 9161 words

参数高效微调:为什么0.1%的参数能做到全参数微调99%的效果

2021年,微软的研究团队提出了一个看似不可能的假设:如果预训练模型学到的知识实际上只存在于一个极低维的子空间中,那么微调是否只需要更新这个子空间就足够了? ...

14 min · 6798 words

预训练数据如何决定大模型的上限:从数据质量到清洗流程的完整解析

当LLaMA 3在2024年发布时,一个引人注目的细节被埋没在技术报告的角落:尽管训练数据从LLaMA 2的1.8万亿token增长到15万亿token,但数据清洗管道的改进才是模型性能飞跃的真正推手。Meta团队开发了复杂的数据处理流水线,包括启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器——这套系统让模型在更少训练步数下实现了更好的性能。 ...

15 min · 7281 words