信息论 | Answer

无损压缩如何工作：从香农信息论到现代算法的七十年演进

1952年，克劳德·香农在贝尔实验室的办公室里写下了这样一个公式： $$H(X) = -\sum_{i=1}^{n} p_i \log_2 p_i$$这个看似简洁的等式，定义了信息的数学本质，也为接下来七十年的压缩技术发展奠定了理论基础。当我们今天用gzip压缩文件、用PNG保存图片、用HTTP传输网页时，这些技术的根源都可以追溯到香农的信息论。 ...

Logprobs深度解析：大模型输出的隐藏信息

当你问一个大模型一个问题，它吐出一串文字作为回答。这个过程看似简单，但模型内部究竟发生了什么？它有多确信自己的答案？如果它在"胡编乱造"，我们能否察觉？ ...

语言模型的概率本质：从条件概率到下一个词预测的数学之旅

从一个预测游戏说起当我们在说话或写作时，大脑在不停地进行一个预测游戏：根据已经说出的内容，预测下一个最可能出现的词。这个看似简单的认知过程，恰恰是现代大语言模型的核心工作原理。 ...

交叉熵损失函数：为什么这个公式统治了深度学习的概率预测

当一个语言模型预测下一个词时，它输出的是整个词表上的概率分布。比如在"今天天气很"这个上下文后，模型可能给出"好"的概率是0.7，“差"的概率是0.2，“热"的概率是0.08，其他词的概率更低。如果真实的下一个词确实是"好”，我们如何量化模型预测的质量？更进一步，如何设计一个可微分的损失函数，让模型能够通过梯度下降不断优化这个预测能力？ ...

困惑度如何成为语言模型评估的黄金标准：从信息论到现代大模型的五十年演进

一个语言模型的好坏，究竟该如何衡量？假设你训练了两个语言模型。模型A对句子"猫坐在垫子上"给出了0.01的概率，模型B给出了0.001的概率。哪个模型更好？直觉告诉我们模型A更好——它对真实存在的句子赋予了更高的概率。但如果模型A对所有句子都赋予高概率呢？包括那些毫无意义的句子组合？ ...

为什么不存在万能压缩算法：从香农熵到不可能三角的数学真相

1948年，贝尔实验室的Claude Shannon在《Bell System Technical Journal》上发表了一篇论文——“A Mathematical Theory of Communication”。这篇论文定义了一个被称为"熵"的量： ...

压缩算法的五十年技术博弈：为什么速度和压缩比从来不能兼得

1948年，贝尔实验室的克劳德·香农发表了一篇题为《通信的数学理论》的论文。这篇论文定义了一个叫做"熵"的概念：对于任何信息源，存在一个不可逾越的压缩极限。无论你用什么方法，都无法把数据压缩到这个极限以下而不丢失信息。 ...