CUDA | Answer

GPU的SIMT执行模型：为什么32个线程必须执行同一条指令

在AI浪潮席卷全球的今天，GPU已经成为最关键的硬件基础设施。训练一个千亿参数的大语言模型需要数万张GPU协同工作，而每一张GPU内部又同时运行着数百万个线程。这种前所未有的并行能力从何而来？答案藏在GPU最核心的执行模型中——SIMT（Single Instruction Multiple Threads）。 ...

为什么一张显卡能干翻整个CPU集群：GPU并行计算如何成为深度学习的基石

2012年9月30日，ImageNet图像识别挑战赛的结果震惊了整个计算机视觉领域。一个名为AlexNet的卷积神经网络以15.3%的错误率夺冠，比第二名整整低了十个百分点。这个数字本身已经足够惊人，但更关键的是AlexNet的训练方式：它使用了两个GTX 580显卡并行训练，耗时仅五到六天。如果用当时的CPU完成同样的训练，需要数十年。 ...