GPU的SIMT执行模型:为什么32个线程必须执行同一条指令

在AI浪潮席卷全球的今天,GPU已经成为最关键的硬件基础设施。训练一个千亿参数的大语言模型需要数万张GPU协同工作,而每一张GPU内部又同时运行着数百万个线程。这种前所未有的并行能力从何而来?答案藏在GPU最核心的执行模型中——SIMT(Single Instruction Multiple Threads)。 ...

20 min · 10000 words