工作窃取算法为何能用O(PD)次窃取完成并行计算:从理论证明到工程实现的二十年演进

工作窃取算法为何能用O(PD)次窃取完成并行计算:从理论证明到工程实现的二十年演进 2008年,Intel发布TBB(Threading Building Blocks),2011年Java 7引入ForkJoinPool,2018年Rust的Tokio发布多线程运行时——这些看似无关的技术决策背后,都指向同一个调度算法:工作窃取(Work Stealing)。为什么从高性能计算到异步运行时,工作窃取能成为跨领域的通用解法? ...

13 min · 6315 words

MoE的门控路由为何如此难以训练?从负载均衡到专家坍缩的技术困境

当混合专家模型(Mixture of Experts, MoE)首次在2017年被提出时,研究者的愿景很美好:用一组专门化的"专家"网络替代传统的全连接层,让每个输入只激活一小部分参数,从而在保持计算效率的同时大幅扩展模型容量。然而,当他们真正开始训练这些模型时,却发现了一个令人沮丧的现象——路由器总是倾向于选择相同的几个专家,而让其他专家完全闲置。 ...

15 min · 7035 words

为什么千亿参数的模型只需激活百亿?MoE架构的三十年技术突围

2024年12月,DeepSeek团队发布了一组令人困惑的数字:DeepSeek-V3拥有6710亿参数,但每个token实际只激活370亿参数。这意味着超过94%的参数在任何时刻都处于"休眠"状态。 ...

14 min · 6754 words

一个服务地址背后的十五年博弈:从DNS到服务网格的演进之路

title: “一个服务地址背后的十五年博弈:从DNS到服务网格的演进之路” date: “2026-03-07T07:33:21+08:00” description: “深入解析微服务架构中服务发现的核心挑战。从DNS的TTL困境到客户端与服务端发现模式的权衡,从Eureka的AP设计哲学到Consul的Raft一致性保证,系统梳理不同服务发现方案的技术本质。分析Netflix、阿里巴巴等企业的实践案例,揭示服务发现在网络分区、脑裂、健康检查等场景下的设计考量,并提供不同场景下的技术选型决策框架。” draft: false categories: [“分布式系统”, “微服务”, “架构设计”] tags: [“服务发现”, “DNS”, “Consul”, “Eureka”, “etcd”, “服务网格”, “Istio”, “Kubernetes”, “CAP定理”, “Raft”, “微服务”, “负载均衡”, “健康检查”] 2015年,Netflix的工程师们设计了一个看似反直觉的机制:当Eureka服务注册中心检测到大量客户端心跳丢失时,它不会驱逐这些"失联"的实例,而是进入"自我保护模式",保留所有现有记录。这不是bug,而是设计者精心埋下的安全机制。这个设计揭示了服务发现系统面临的一个根本性困境:在网络不可靠的世界里,你究竟应该相信什么? ...

14 min · 6638 words

用户会话为何总在关键时刻丢失——从粘滞会话到分布式存储的架构演进

2019年,一个电商团队在双十一大促期间遇到了诡异的问题:大量用户反映购物车商品莫名消失,但客服排查后发现商品数据本身没有任何问题。监控日志显示,用户的会话ID在请求链路中发生了跳变——用户从服务器A跳到了服务器B,而服务器B从未见过这个会话。这不是bug,这是分布式系统架构的必然代价。 ...

9 min · 4258 words

一致性哈希的三十年演进:从MIT论文到全球基础设施的算法传奇

title: “一致性哈希的三十年演进:从MIT论文到全球基础设施的算法传奇” date: “2026-03-07T01:06:51+08:00” description: “深入解析一致性哈希算法从1997年MIT论文到现代分布式系统的演进历程。从Karger等人的原始论文出发,探讨环哈希原理、虚拟节点设计、Amazon Dynamo的生产实践、Google的Jump Hash与Maglev算法,以及Anchor/Dx等新一代算法的技术权衡。通过数学分析与工程实践的双重视角,揭示这一算法为何能统治分布式系统三十年。” draft: false categories: [“分布式系统”, “算法”] tags: [“一致性哈希”, “分布式系统”, “负载均衡”, “Dynamo”, “算法演进”] 2007年,Amazon的购物车服务面临一个看似无解的问题:数千万用户同时在线,购物车数据需要在数百台服务器间分布存储。传统方案是简单的取模哈希——server_id = hash(user_id) % N,但当任何一台服务器宕机或扩容时,N值变化导致几乎所有用户的购物车数据都需要迁移。这不仅是性能问题,更是可用性灾难。 ...

12 min · 5726 words

负载均衡为何总是分配不均——从轮询的直觉陷阱到P2C的数学优雅

一个拥有10台服务器的集群,负载均衡器配置为最简单的轮询策略。每台服务器每秒处理100个请求,看起来完美均衡。直到某天凌晨,其中一台服务器因为硬件故障开始变慢——响应时间从10毫秒飙升到2秒。轮询算法依然忠实地将十分之一的流量发送给它。 ...

11 min · 5166 words