数据库内核

数据库查询引擎为何跑不过手写代码？从火山模型到编译执行的三十年突围

2008年，一位数据库研究员做了一个简单的实验：他用C++手写了一段处理TPC-H Query 1的代码，然后与当时最先进的数据库系统对比性能。结果令人震惊——手写代码比数据库快了整整一个数量级。这个结果刺痛了数据库社区：为什么精心设计的查询引擎，竟然输给了几行手写的循环？ ...

数据库Buffer Pool为何拒绝LRU从Belady最优到CLOCK-Sweep的六十年算法博弈

1981年，加州大学伯克利分校的Michael Stonebraker发表了一篇标题平实却影响深远的论文——《Operating System Support for Database Management》。论文的核心论断是：通用操作系统的内存管理决策对数据库负载是次优的。操作系统以"盲目"的全局策略（通常是LRU变体）管理内存，追求跨进程的公平性，却无法利用数据库独有的语义信息。 ...

数据库Join算法如何将万亿级比较降至线性复杂度：从嵌套循环到哈希连接的四十年技术博弈

1970年，Edgar Codd在IBM发表关系模型论文时，可能没有预见到Join操作会成为此后五十年数据库性能优化的核心战场。一个看似简单的"将两张表按共同键合并"的操作，在算法层面却隐藏着从$O(m \times n)$到$O(m + n)$的巨大差异——对于两张各有100万行的表，这意味着从万亿次比较降到百万次，性能差距可达六个数量级。 ...

B+树索引的页分裂：从顺序插入的优雅到随机写入的代价

一个简单的测试揭示了令人困惑的现象：同样的硬件、同样的表结构、同样的索引设计，使用UUID作为主键的表插入速度只有自增主键的十分之一。更奇怪的是，存储空间的占用竟然相差接近一倍。 ...

数据库死锁为何如此难以根除从检测算法到预防策略的五十年博弈

1971年，ACM Computing Surveys发表了一篇题为《System Deadlocks》的论文。作者Edward G. Coffman Jr.、M. J. Elphick和Arie Shoshani系统阐述了死锁发生的四个必要条件——互斥、持有并等待、非抢占、循环等待。这篇论文奠定了此后半个多世纪死锁研究的理论基础。然而，五十年过去了，死锁仍然是数据库系统中最常见的生产事故之一。2021年，北卡罗来纳州立大学的研究团队对106个数据库后端Web应用进行调研，收集了49个真实的死锁案例。研究发现，跨请求的数据库锁死锁不仅最常见，也是现有工具最难处理的类型。 ...