技术分享
未读
CloudFlare近期全球故障复盘
在2025年11月至12月期间,全球互联网基础设施服务商CloudFlare接连发生了两起重大服务中断事件,影响了包括ChatGPT和X(原Twitter)在内的广泛服务,引发了行业对集中式网络基础设施可靠性的讨论。本文详细复盘了这两起故障,分析了其根本原因,并为分布式基础设施的韧性建设提供了建议。
11月的故障起因于一次权限变更,导致配置文件“膨胀”,超出系统预设限制,最终引发全球服务器上的流量路由软件崩溃,持续约5小时46分钟。而12月的故障则是由于配置变更触发了旧版代码中的缺陷,导致约28%的HTTP流量受到影响,持续时间较短,仅25分钟。
两次故障暴露了CloudFlare在全球配置管理、旧系统治理和故障容错机制上的短板。全网瞬时部署机制虽然在应对安全威胁时具有优势,但也使错误配置能够迅速波及全球。此外,旧代码与新架构的兼容性问题以及故障检测与容错机制的不完善,也是导致故障扩大的原因。
行业启示包括:应采用灰度发布与强制验证机制,逐步推进配置变更;加强旧系统技术债务治理,确保旧代码的缺陷被及时修复;完善故障容错设计,启用“Fail-Open”模式以避免流量完全阻断;构建精准的故障根因定位体系,提升故障初期识别能力。
总结指出,全球互联网的稳定性依赖于基础设施的韧性设计,任何配置变更都需经过严格验证,以确保网络生态的安全与稳定。