LLM | Answer

大模型代码生成能力的边界与突破——从语法理解到语义推理的技术解析

2022年末，GitHub Copilot的月活用户突破150万，Stack Overflow的流量却在一年内下跌了35%。代码生成大模型正在重塑程序员的日常工作方式。然而，当开发者们习惯性地将需求抛给AI，期待一段可运行的代码时，一个更深层的问题常常被忽略：这些模型究竟是在"理解"代码，还是仅仅在进行某种高级的模式匹配？ ...

变长序列处理：大模型如何应对长短不一的输入

把三句话塞进一个batch里，会发生什么？ “我是一只猫"有4个token，“今天天气真好"也是4个，而"人工智能正在改变世界，从医疗到教育，从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

置信度校准：当大模型说"我有80%把握"时，它真的知道自己在说什么吗？

引言：当AI说出"我有80%把握"时，它真的知道自己在说什么吗？ 2017年，斯坦福大学的研究生Chuan Guo发表了一篇论文，揭示了一个令人不安的现象：现代深度神经网络在预测准确率上远超早期模型，但它们对自己预测的置信度估计却变得更不可靠。一个可能达到99%分类准确率的模型，当它声称有99%的置信度时，实际正确率可能只有80%。 ...

Temperature=0为什么不等于确定性输出：大模型推理非确定性的完整技术解析

一个被广泛接受的观点是：只要将大模型的Temperature参数设为0，就能获得确定性的输出。这个直觉看起来很合理——Temperature=0意味着贪婪采样，模型总是选择概率最高的那个token，没有随机性，结果应该可复现。 ...

为什么大模型每次回答都不一样：从温度参数到批次不变性的完整技术解析

当你向ChatGPT连续两次提出相同的问题，大概率会得到两个不同的回答。很多人知道这是温度参数在作怪，但把温度调到0就能保证确定性吗？答案是否定的。即使temperature=0，OpenAI的API仍然可能返回不同的结果，而你自己部署的开源模型在vLLM或SGLang上推理时，输出同样不稳定。 ...

大模型的上下文窗口：从Token限制到有效上下文管理的完整解析

大模型的上下文窗口：从Token限制到有效上下文管理的完整解析当你向一个语言模型发送请求时，你有没有想过：为什么有些模型只能处理几千字，而有些却能吞下整本书？为什么即便模型声称支持128K上下文，你的长文档问答效果却时好时坏？为什么同样的提示词放在文档开头和中间，模型的回答准确率会相差几十个百分点？ ...

Logprobs深度解析：大模型输出的隐藏信息

当你问一个大模型一个问题，它吐出一串文字作为回答。这个过程看似简单，但模型内部究竟发生了什么？它有多确信自己的答案？如果它在"胡编乱造"，我们能否察觉？ ...