鼓狮财经快讯:Coinbase 发布了关于 2026 年 5 月 7 日重大服务中断事件的详细复盘报告。此次事故堪称加密货币行业近年来最严重的系统瘫痪事件之一,不仅造成了长达 8 小时的服务中断,且完整恢复耗时竟长达 12 小时。在此期间,用户的交易、充值、提现以及绝大多数核心业务均陷入不可用或严重降级的尴尬境地,给市场带来了巨大的信任危机。
深入剖析技术根源,故障的导火索源于 AWS us-east-1 区域可用区(use1-az4)数据中心。由于冷却系统中的多台制冷机同时发生失效,导致机柜温度急剧升高,触发了热保护停机机制。这一物理层面的硬件故障,直接导致了大量 EC2 实例与 EBS 卷被强制下线,进而引发了波及多项互联网服务的连锁反应,将原本局部的机房故障演变成了全局性的服务崩溃。
在紧急恢复阶段,Coinbase 遭遇了严峻的技术挑战。首先是交易撮合引擎,由于部署架构高度集中于单一 AWS 机房,当集群失去多数节点后,系统一度丧失了运行所需的 quorum。团队不得不紧急调整代码,并通过构建新节点组来重建运行秩序,才逐步重启了市场交易功能。与此同时,AWS 托管的 Kafka 服务也出现了控制平面故障,导致分区主节点无法自动进行重新选举,进一步阻断了报价、手续费收取及部分结算与数据流系统的正常运转,极大地扩大了故障影响范围。
经过与 AWS 工程团队的通力协作,通过手动分区迁移等紧急手段,系统最终得以恢复至正常水平。Coinbase 在报告中毫不避讳地指出,此次事件彻底暴露了其在跨可用区自动切换能力以及托管中间件容灾设计方面的明显短板。为此,公司制定了严苛的改进计划:全面升级跨区域热备架构、强化定期的故障演练,并将 Kafka 系统从双可用区迁移至三可用区部署,同时与 AWS 紧密合作,共同推进根因修复与基础设施的全面优化。
