修改一个知识为何让千亿参数模型崩溃

2022年,Kevin Meng等人在NeurIPS发表了题为"Locating and Editing Factual Associations in GPT"的论文,提出了ROME(Rank-One Model Editing)方法。研究者们声称,他们可以精确定位模型中存储特定事实的位置,并通过数学手段直接修改权重来更新知识。这篇论文引起了巨大轰动——人们第一次看到了不重新训练就能更新模型知识的希望。 ...

20 min · 9890 words

Word2Vec:两个模型如何教会机器理解词语之间的关系

2013年,Tomas Mikolov领导的团队在Google发表了两篇看似简单的论文。他们用一个浅层神经网络,只做一件事情:根据词语的上下文来学习词语的向量表示。这个叫Word2Vec的方法,后来成为自然语言处理领域最具影响力的技术之一。 ...

20 min · 9922 words

变长序列处理:大模型如何应对长短不一的输入

把三句话塞进一个batch里,会发生什么? “我是一只猫"有4个token,“今天天气真好"也是4个,而"人工智能正在改变世界,从医疗到教育,从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

16 min · 7676 words

大模型推理框架的技术博弈:从vLLM到TensorRT-LLM,解析三大框架的设计哲学与性能突围

引言:为什么大模型推理需要专门的框架 当你向ChatGPT提问时,背后的推理系统每秒需要处理数百万次的矩阵乘法运算。与传统的神经网络推理不同,大语言模型的推理具有独特的性能特征:自回归生成导致每个请求的输出长度不可预测,KV缓存的动态增长使得内存管理成为核心挑战,而预填充与解码两个阶段截然不同的计算模式,更是要求系统设计者在延迟和吞吐量之间进行精细权衡。 ...

17 min · 8264 words

大模型为何读不懂"不"字:从注意力机制到训练数据的否定词困境

当你告诉大模型"不要在代码中使用eval函数",它偏偏生成了包含eval的代码;当你问"哪些水果不是红色的",它列出了红苹果和草莓。这不是个例,而是一个困扰了自然语言处理领域十年的顽疾。 ...

17 min · 8331 words

Transformer参数量计算:从Embedding到FFN的完整公式推导

引言:1750亿参数从何而来? 当你看到"GPT-3有1750亿参数"、“LLaMA 7B”、“Claude 100K上下文"这样的描述时,你是否想过:这1750亿参数到底是怎么算出来的?它们分别存储在模型的哪些部分? ...

18 min · 8531 words

序列到序列学习的二十年演进:从统计方法到Transformer的革命

2016年9月,Google宣布将生产环境的翻译系统从基于短语的统计机器翻译全面切换到神经机器翻译。这个决定背后,是近二十年序列建模技术的积累与突破。从IBM的统计翻译模型,到Sutskever等人的LSTM Seq2Seq,再到Bahdanau的注意力机制,最终汇聚成Transformer这一改变NLP格局的架构。理解这段演进历程,不仅能帮助我们把握技术脉络,更能看清现代大语言模型处理序列任务的设计哲学。 ...

5 min · 2442 words