GPU的SIMT执行模型:为什么32个线程必须执行同一条指令

在AI浪潮席卷全球的今天,GPU已经成为最关键的硬件基础设施。训练一个千亿参数的大语言模型需要数万张GPU协同工作,而每一张GPU内部又同时运行着数百万个线程。这种前所未有的并行能力从何而来?答案藏在GPU最核心的执行模型中——SIMT(Single Instruction Multiple Threads)。 ...

20 min · 10000 words

为什么一张显卡能干翻整个CPU集群:GPU并行计算如何成为深度学习的基石

2012年9月30日,ImageNet图像识别挑战赛的结果震惊了整个计算机视觉领域。一个名为AlexNet的卷积神经网络以15.3%的错误率夺冠,比第二名整整低了十个百分点。这个数字本身已经足够惊人,但更关键的是AlexNet的训练方式:它使用了两个GTX 580显卡并行训练,耗时仅五到六天。如果用当时的CPU完成同样的训练,需要数十年。 ...

13 min · 6348 words