计算机体系结构

FPGA为何能在芯片设计的铁三角中走出第三条路：从可编程逻辑到自适应计算的四十年技术演进

引言：一个不可能的命题 1984年，Ross Freeman做出了一个在当时看来近乎疯狂的决定——他辞去了Zilog公司的高薪职位，押注于一个当时几乎没人看好的技术方向：让芯片在出厂后还能改变功能。 ...

PCIe总线的二十年技术演进，从并行困境到串行架构的通信革命

引言：一条总线的命运 2001年，当Intel工程师组成的Arapahoe工作组开始构思下一代总线标准时，他们面对的是一个看似无解的物理难题：并行总线已经走到了尽头。传统的PCI总线运行在33MHz或66MHz，数据宽度32位或64位，理论上峰值带宽可达533MB/s。然而，随着处理器频率突破GHz大关，这个曾经"足够快"的总线成了系统性能的最大瓶颈。 ...

从按下电源键到看见桌面：计算机启动的完整技术解析

按下电源键的那一刻，你可能正在思考早餐吃什么，或者今天的工作计划。而在这短短的几秒到几十秒内，你的计算机正在完成一场精密的接力赛：从电流涌入电路板，到操作系统完全接管控制权，数以百计的组件必须按特定顺序初始化，任何一步出错都会让屏幕保持黑色。 ...

虚拟内存管理的底层机制：从页表遍历到TLB优化的完整技术解析

引言当你在Linux系统中执行top命令时，看到的VIRT和RES两列数字之间往往存在巨大差异。一个简单的Chrome浏览器进程可能显示VIRT为10GB，而RES仅有200MB。这种差异的背后，是操作系统在硬件支持下构建的一套精巧机制——虚拟内存管理。 ...

SIMD向量化：为什么一行代码能让性能提升10倍

2019年，Daniel Lemire和Geoff Langdale发表了一篇论文，展示了一个令人惊讶的结果：他们的JSON解析器simdjson在单核上达到了每秒解析数GB JSON数据的速度，比当时最快的C++ JSON库快了4倍。这个性能飞跃的核心秘诀只有一个——SIMD向量化。 ...

为什么一张显卡能干翻整个CPU集群：GPU并行计算如何成为深度学习的基石

2012年9月30日，ImageNet图像识别挑战赛的结果震惊了整个计算机视觉领域。一个名为AlexNet的卷积神经网络以15.3%的错误率夺冠，比第二名整整低了十个百分点。这个数字本身已经足够惊人，但更关键的是AlexNet的训练方式：它使用了两个GTX 580显卡并行训练，耗时仅五到六天。如果用当时的CPU完成同样的训练，需要数十年。 ...

编译器的循环优化技术：从循环展开到分块，为何几行代码的改动能让程序快十倍

计算机科学领域存在一个广为流传的二八定律：程序80%的执行时间耗费在20%的代码上，而这20%的代码中，循环结构占据主导地位。正因如此，循环优化成为编译器技术中最核心的研究方向之一。 ...