就在昨晚!全球顶尖网络基础设施服务商 Cloudflare 突发全球性故障,导致 ChatGPT、社交平台 X(原 Twitter)、Canva 等数十家知名平台集体出现访问故障,数亿用户遭遇 “500 内部服务器错误” 提示。
作为支撑全球 20% 网站的 “隐形守护者”,此次故障被网友调侃 “带走了半个互联网”。
故障于北京时间 19:20 左右爆发,根源是机器人管理系统的自动配置文件因权限变更异常扩容,超出软件负载限制引发连锁崩溃,并非网络攻击所致。
Cloudflare 技术团队紧急替换正常配置文件,至 22:30 核心服务逐步恢复,全程故障持续约 3 小时。
官方技术分析确认:
- 一次例行的数据库权限调整触发了机器人防护系统底层服务的潜在漏洞
- 权限变更导致数据库向机器人管理系统使用的 "功能文件"(feature file) 中输出了超出预期数量的条目
- 该配置文件大小在短时间内异常翻倍,超过了系统预设的软件负载限制
- 核心代理系统因无法处理如此庞大的配置文件而崩溃,引发连锁反应
Cloudflare 技术团队采取了以下措施:
- UTC 13:04 - 临时禁用伦敦地区 WARP 服务,尝试缓解问题
- UTC 14:05 - 定位问题根源,开始回滚异常的数据库权限配置
- UTC 14:42 - 核心服务开始逐步恢复
至北京时间 22:30,绝大多数服务恢复正常。
事后 CTO 公开致歉,承认此次 “不可接受” 的事故辜负了用户信任,公司股价当日下跌超 4%,市值蒸发超 30 亿美元。
值得注意的是,这并非 Cloudflare 首次 “翻车”,2019 年至 2025 年间已发生 4 次大规模宕机,暴露了全球互联网对少数基础设施巨头的依赖风险。