对话模板:大模型应用中最容易被忽视的隐形语言

当你调用一个大语言模型的API时,通常会传入类似这样的结构: messages = [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好!"}, {"role": "assistant", "content": "你好!有什么可以帮助你的吗?"}, {"role": "user", "content": "2+2等于多少?"}, ] 这个整洁的消息列表,在送入模型之前,会被转换成一段连续的文本。问题是:这段文本长什么样? ...

10 min · 4709 words

Tokenizer 如何塑造大语言模型的世界观:从 BPE 到 Byte Latent Transformer 的三十年技术演进

1994年2月,Philip Gage在《C Users Journal》上发表了一篇题为"A New Algorithm for Data Compression"的文章。这位程序员的初衷很简单:找到一种更高效的方式来压缩数据。他没有想到,三十年后,他发明的Byte Pair Encoding(BPE)算法会成为让ChatGPT、Claude、LLaMA等大语言模型理解人类语言的第一道关卡。 ...

15 min · 7293 words

大模型如何评估:从标准化考试到人类偏好的完整技术解析

当一个新的大模型发布时,我们如何判断它到底有多强? 模型技术报告上那些眼花缭乱的数字——MMLU 92%、GSM8K 95%、HumanEval 88%——究竟意味着什么?为什么一个在基准测试中表现优异的模型,实际使用时却常常令人失望? ...

13 min · 6105 words

大模型推理为什么第一个 Token 总是很慢:从 Prefill 到 Decode 的完整技术解析

当你向一个大语言模型发送请求时,可能会注意到一个有趣的现象:第一个字蹦出来总是慢半拍,但随后的字却如流水般涌出。这种"先慢后快"的节奏并非偶然,而是大模型推理机制的根本特性。 ...

10 min · 5000 words
Blog Cover

Temperature 参数如何控制大模型的"创造性"与"确定性"

每个使用过大语言模型 API 的人都会遇到一个名为 Temperature 的参数。大多数时候,我们要么忽略它,要么随意调一下。但这个看似简单的数字,实际上决定了模型是"一本正经"还是"天马行空"。 ...

9 min · 4263 words

为什么大模型会一本正经地胡说八道?从概率生成到注意力机制的技术解剖

title: “为什么大模型会一本正经地胡说八道?从概率生成到注意力机制的技术解剖” date: “2026-03-07T09:12:30+08:00” description: “深入解析大语言模型幻觉现象的技术本质,从Transformer架构限制、训练数据缺陷到softmax瓶颈,揭示为什么幻觉不是bug而是架构的必然产物,以及RAG、思维链等缓解方案的有效性边界。” draft: false categories: [“人工智能”, “机器学习”, “深度学习”] tags: [“大模型幻觉”, “Transformer”, “注意力机制”, “LLM”, “RAG”, “概率生成”, “AI可靠性”] 2023年5月,纽约律师Steven Schwartz在准备法庭辩护时,让ChatGPT查找类似案例。模型自信地提供了《Martinez v. United States》《Jones v. United States》等多个判例,包括完整的案号、判决日期和法官意见。Schwartz将这些"案例"写入了法庭文件。直到法官要求核实,人们才发现:这些案例全部不存在。模型不仅虚构了案件名称,还编造了引文格式、判决细节和法理分析——每一处都符合法律文书的规范,却全是子虚乌有。Schwartz后来在宣誓书中承认,他"误以为ChatGPT不可能编造虚假信息"。 ...

12 min · 6010 words