人工智能 | Answer

大模型代码生成能力的边界与突破——从语法理解到语义推理的技术解析

2022年末，GitHub Copilot的月活用户突破150万，Stack Overflow的流量却在一年内下跌了35%。代码生成大模型正在重塑程序员的日常工作方式。然而，当开发者们习惯性地将需求抛给AI，期待一段可运行的代码时，一个更深层的问题常常被忽略：这些模型究竟是在"理解"代码，还是仅仅在进行某种高级的模式匹配？ ...

图像超分辨率：为什么AI能把模糊照片变清晰？从插值到扩散模型的技术突围

一张低分辨率照片放大后变得模糊，这是再正常不过的事情。但近年来，AI似乎能够"凭空"创造出照片放大后本不存在的细节——毛孔纹理、发丝走向、织物纤维。这种近乎魔法的能力背后，是一个困扰计算机视觉领域数十年的数学难题，以及三代技术范式的迭代演进。 ...

Logit Lens：Transformer的每一层都在"想"什么

当一个大语言模型输出"巴黎是法国的首都"时，这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中，每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程？ ...

隐藏层维度：为什么这个数字决定了大模型的能力边界

打开任何一个大模型的配置文件，你总能看到一些神秘的数字：BERT的768，GPT-2的1024，LLaMA-7B的4096，GPT-3的12288。这些数字从何而来？为什么不是769或4095？为什么LLaMA选择4096而GPT-3选择12288？更关键的是，这个被称为"隐藏层维度"或"隐藏尺寸"的参数，究竟如何影响模型的能力边界？ ...

Logprobs深度解析：大模型输出的隐藏信息

当你问一个大模型一个问题，它吐出一串文字作为回答。这个过程看似简单，但模型内部究竟发生了什么？它有多确信自己的答案？如果它在"胡编乱造"，我们能否察觉？ ...

参数高效微调：为什么0.1%的参数能做到全参数微调99%的效果

2021年，微软的研究团队提出了一个看似不可能的假设：如果预训练模型学到的知识实际上只存在于一个极低维的子空间中，那么微调是否只需要更新这个子空间就足够了？ ...

预训练数据如何决定大模型的上限：从数据质量到清洗流程的完整解析

当LLaMA 3在2024年发布时，一个引人注目的细节被埋没在技术报告的角落：尽管训练数据从LLaMA 2的1.8万亿token增长到15万亿token，但数据清洗管道的改进才是模型性能飞跃的真正推手。Meta团队开发了复杂的数据处理流水线，包括启发式过滤器、NSFW过滤器、语义去重方法和文本质量分类器——这套系统让模型在更少训练步数下实现了更好的性能。 ...