大语言模型

大模型代码生成能力的边界与突破——从语法理解到语义推理的技术解析

2022年末，GitHub Copilot的月活用户突破150万，Stack Overflow的流量却在一年内下跌了35%。代码生成大模型正在重塑程序员的日常工作方式。然而，当开发者们习惯性地将需求抛给AI，期待一段可运行的代码时，一个更深层的问题常常被忽略：这些模型究竟是在"理解"代码，还是仅仅在进行某种高级的模式匹配？ ...

Logit Lens：Transformer的每一层都在"想"什么

当一个大语言模型输出"巴黎是法国的首都"时，这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中，每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程？ ...

大模型如何选择下一个词：从概率预测到文本生成的完整技术链路

引言：模型输出的真正面目当你在ChatGPT中输入一个问题，屏幕上逐字显现答案时，你是否想过：模型内部发生了什么？它是如何决定下一个词的？很多人以为大语言模型直接输出文字，这是一个普遍的误解。事实上，模型的输出是一个由数万个数字组成的向量——每个数字对应词表中的一个词，代表该词成为"下一个词"的原始分数。这个分数，在技术术语中被称为Logit。 ...

知识蒸馏：为什么大模型能教小模型学会本事

2015年3月，Geoffrey Hinton在arXiv上发表了一篇只有9页的论文，标题是《Distilling the Knowledge in a Neural Network》。这篇论文没有提出什么新的网络架构，也没有刷新任何榜单，却彻底改变了模型部署的游戏规则。 ...

语言模型的概率本质：从条件概率到下一个词预测的数学之旅

从一个预测游戏说起当我们在说话或写作时，大脑在不停地进行一个预测游戏：根据已经说出的内容，预测下一个最可能出现的词。这个看似简单的认知过程，恰恰是现代大语言模型的核心工作原理。 ...

大模型是如何被训练出来的？从预训练到对齐的三阶段技术全景

当我们与一个训练完成的大语言模型对话时，它似乎能理解我们的问题、组织连贯的回答、甚至在某些领域展现出接近专家的知识水平。但这个"智能体"并非凭空诞生——在它能说出第一句话之前，背后是一个历时数月、耗资千万美元、涉及万亿级token的复杂训练过程。 ...

大模型为何总被一句话越狱：从角色扮演到梯度优化的攻防技术演进

2023年2月，Reddit上一位用户发现，只需让ChatGPT扮演一个名为"DAN"（Do Anything Now）的角色，就能绕过模型的安全限制，让它回答本应拒绝的问题。这个看似简单的角色扮演提示，揭示了深度学习模型安全对齐的深层脆弱性。 ...