GPU计算

张量：深度学习的数据容器

打开任何一个深度学习框架的代码，你几乎立刻会碰到张量这个词。PyTorch文档的第一行示例代码是创建张量，TensorFlow的名字本身就在暗示张量的核心地位。但当你试图理解"张量究竟是什么"时，可能会发现答案飘忽不定——有人说它是矩阵的推广，有人提到坐标变换下的不变性，还有人干脆说"就是多维数组"。 ...

Temperature=0为什么不等于确定性输出：大模型推理非确定性的完整技术解析

一个被广泛接受的观点是：只要将大模型的Temperature参数设为0，就能获得确定性的输出。这个直觉看起来很合理——Temperature=0意味着贪婪采样，模型总是选择概率最高的那个token，没有随机性，结果应该可复现。 ...

大模型参数量与计算量：从Transformer架构到FLOPs计算的完整解析

当GPT-3在2020年问世时，其1750亿参数的规模震惊了整个AI界。三年后，LLaMA-70B用更少的参数达到了更好的效果。到了2024年，DeepSeek-V3以6710亿总参数但仅激活370亿参数的MoE架构重新定义了效率边界。这些数字背后隐藏着一套精确的数学逻辑——参数量如何决定计算量，计算量如何影响训练成本，以及如何在有限的算力预算下设计最优模型。 ...