全球公有云一哥AWS十年宕机故障大全

2023-11-18

  

任何一个公有云供应商,在发展的历史长河中,都遭遇了这样那样的宕机、故障。

或因人为因素、或因雷电太凶、或因机房停电、或因光缆被挖、或因代码错输……

这些问题的出现与解决,正好也是公有云服务不断优化与提升的过程。

不过,作为全球公有云的一哥,从可以查询记载的故障宕机等事件来看,几乎每年都会出现。

在此,阿明来回顾一下,特别整理编辑了:

这套

2010年到2019年今日为止,

全球公有云一哥十年宕机故障大全。

【2010年】

AWS云服务因UPS和人为错误中断,持续时间不详。

2010年5月4日Amazon云计算服务出现两次故障,原因则分别是一个UPS单元故障和人为操作失误。

AWS云服务因数据中心电路中断,持续时间长达7个小时。

2010年5月8日Amazon云计算服务故障,因数据中心配电屏电气接地和短路,曾导致部分用户失去服务长达7个小时,而且还导致极少量用户的数据丢失。

Amazon数据中心停电AWS云服务中断,持续时间1个小时。

2010年5月11日,Amazon云计算服务因停电事故出现故障,致使美国东部的少量用户失去服务长达一个小时。

这次事故的原因,是一辆汽车撞倒了Amazon数据中心附近的高压电线杆,而数据中心的配电开关又未能正常地从公用电网切换到内部的备用发电机(配电自动化系统错误地将停电原因理解为电气接地)。

值得注意的是,这是Amazon云计算服务一周内第四次因停电发生故障。

亚马逊欧洲网站宕机,持续时间超过一个半小时。

2010年12月13日,亚马逊旗下英国、法国、德国和西班牙网站周日晚间宕机超过一个半小时,但目前还没有迹象显示这与网络攻击有关。自从维基解密开始公布美国机密外交电文后,亚马逊是首批宣布与维基解密断绝业务的公司之一。随后一批支持维基解密的网络黑客对亚马逊网站发起了网络攻击。

亚马逊旗下英国、德国、法国以及西班牙网站均出现了时间超过30分钟的宕机,直至格林威治时间周日21:45逐步恢复正常。亚马逊美国网站此次并未遭受影响。

【2011年】

AWS云数据中心服务器大面积宕机,持续时间很长。

2011年4月22日,亚马逊AWS云数据中心服务器大面积宕机,这一事件被认为是亚马逊史上最为严重的云计算安全事件。

由于亚马逊在北弗吉尼亚州的云计算中心宕机,包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。

亚马逊官方报告中声称,此次事件是由于其EC2系统设计存在漏洞和设计缺陷,并且在不断修复这些已知的漏洞和缺陷来提高EC2,即亚马逊ElasticComputeCloud服务的竞争力。

AWS被雷击断网,故障持续了大约两天。

2011年8月,亚马逊在北弗吉尼亚州的EC2(弹性计算云)服务发生断网故障,使许多使用亚马逊Web服务云计算基础设施的网站和服务临时中断。这个数据中心是亚马逊在欧洲唯一的数据存储地,也就是说,EC2云计算平台客户在事故期间没有其他数据中心可供临时使用。

亚马逊称,在北爱尔兰都柏林出现的闪电,引起亚马逊在那里的数据中心停电故障,导致在那里的云服务断网。亚马逊证实美国东1区与互联网之间的连接问题么,但很快连接全面恢复。同时还发现在北弗吉尼亚州的关系数据库服务中的另一个连接问题。这个故障在11分钟内修复。不过,宕机事件使得采用亚马逊EC2云服务平台的多家网站长中断达两天时间之久。

【2012年】

亚马逊AWS的EC2服务故障,持续时间超过29个小时。

2012年6月14日,Amazon位于美国东部的数据中心出现故障,并影响了AWS多项云服务以及基于之上的Heroku、Quora等知名网站。16日,Amaozn公布了事故分析。事故是由公共电网故障引起,并引发了一系列连锁故障。

雷暴使得亚马逊在该地区的设施失去了动力,发电机不能正常运行,消耗应急电源的不间断电源(电源)系统,从而导致运行在Amazon RDS上的大概上千个MySQL数据库宕机。

同时EBS-related EC2 API的损失集中在20:57-22:40。具体来看,这段时间内,可变系统调用(如创建,删除)失败,进而直接影响到客户发布新的EBS-backed EC2实例。EC2和EBS APIs实施在多个可用复制数据存储区。EBS数据存储被用来存储元数据等资源的卷快照。

一般来看,为了保护数据存储,系统会自动翻转为只读模式,直到电力恢复可以启动可用区,进而尽快恢复到一致状态,并返回到数据存储读写模式,使得启用可变EBS调用成功。但这个事件中,这一保护方案没有起到作用。

AWS网络服务中断,持续时间不详。

2012年10月22日,亚马逊位于北维吉尼亚的网络服务AWS中断。

事故影响了包括Reddit、Pinterest等知名大网站。中断影响了弹性魔豆服务,其后是弹性魔豆服务的控制台,关系数据库服务,弹性缓存,弹性计算云EC2,以及云搜索。这次事故让很多人认为,亚马逊是应该升级其北维尼吉亚数据中心的基础设施了。

亚马逊AWS弹性负载均衡服务故障,持续时间不详。

2012年12月24日,刚刚过去的圣诞节平安夜,亚马逊并没有让他们的客户过得太平安。亚马逊AWS位于美国东部1区的数据中心发生故障,其弹性负载均衡服务(Elastic Load Balancing Service)中断,导致Netflix和Heroku等网站受到影响。

其中,Heroku在之前的AWS美国东部区域服务故障中也受到过影响。

不过,有些巧合的事情是Netflix的竞争对手,亚马逊自己的业务Amazon Prime Instant Video并未因为这个故障而受到影响。

【2013年】

亚马逊AWS负载均衡故障,持续时间2个小时。

2013年9月13日黑色星期五发生的这次故障是由负载均衡问题所导致的,部分地区客户受到影响。

Amaozn解决了复杂均衡的接入问题,并增加了配置时间以防止后续这种问题的出现。

虽然这次中断只持续了大约2个小时且只影响到弗吉尼亚州的一个可用区域,但对Amazon来说,却是一个要制定备份计划的重要提醒。

【2014年】

AWS CloudFront DNS服务中断,持续时间近2个小时。

2014年11月26日,Amazon Web Services的CloudFront DNS服务器从美国东部时间下午7:15开始持续了近2个小时。在下午9点之后DNS服务器开始恢复备份。

部分网站和云服务发生掉线,在这期间内容交付网络无法完成DNS请求。没有发生什么大事,但是值得列入该榜单,因为它涉及到全球最大的也是运行时间最长的云。

【2015年】

AWS大规模宕机,宕机持续时间超过40秒。

2015年7月1日 亚马逊Web服务(AWS)出现大规模宕机情况,宕机持续时间超过了40秒。Slack、Asana、Netflix、Pinterest等多款APP、以及多家使用AWS服务的网站出现无响应的情况。 

 

对此不少网友笑称“都是闰秒惹的祸!”。也有网友怀疑是“苹果音乐服务”导致的。此外,还有用户在Hacker News网站上撰文称是由于亚马逊的一个EC2服务器引起的。 

亚马逊AWS平台DynamoDB超时引发宕机,故障持续时间5小时。

2015年9月,亚马逊自动化基础设施过程中断,造成AWS平台宕机。从简单网络中断级联反应成大面积服务掉线,亚马逊经历了传统内部数据中心才会经历的那种断网——尽管它有非常先进和集成的云平台。

亚马逊的网络中断影响到其一部分DynamoDB云数据库的存储服务器。此事发生时,一些存储服务器还在请求其成员资格数据。于是,断线造成了检索和传输超时,这些服务器无法获得自己的成员资格数据,自动退出了服务。

当那些无法获得请求的服务器开始重新尝试请求的时候,DynamoDB超时问题便引发了更大面积的断网。如此,恶性循环产生,亚马逊客户有5个小时无法使用AWS。

数据中心停电AWS服务中断,停运超过5小时。

2015年9月20日亚马逊AWS一个数据中心遭遇停电事故,影响了Netflix,Tinder,Airbnb等应用程序的在线服务,以及Reddit和IMDB服务中断。

此次服务中断归咎于其在北弗吉尼亚的us-east-1数据中心软件的问题,而其受到影响的客户大多是本土的客户。20日早上3点停电后不久,一共24个应用和服务报告出现问题,其中有10个处于完全“服务中断”模式。

【2016年】

亚马逊AWS宕机,持续时间20分钟。

2016年3月11日,美国当地时间2点20分钟左右,电商巨头亚马逊官方网站发生宕机事故,时间长达20分钟,这次事故不仅导致亚马逊电子商务主网站无法访问,而且也波及到了亚马逊的其他服务,这其中就包括了全球最强的亚马逊云计算服务以及一些数字内容服务等。

这对于亚马逊来说是一个相当巨大的事故,并且这一事故将造成巨大的经济损失。作为实力及用户数量均为全球第一的亚马逊而言,云服务事故不仅是经济损失那么简单,也给追赶者带来了赶超的希望。

澳大利亚AWS因停电中断服务,持续近10个小时。

2016年6月悉尼遭遇风暴,AWS在该地区的设施停电,很多EC2实例以及为一些知名公司托管关键负载的EBS卷接连出现故障。

在那个周末,澳大利亚AWS可用区域的网站和在线服务中断了近10个小时,使得从银行服务到披萨送货都出现了问题。

【2017年】

亚马逊AWS S3宕机事件,宕机4个小时。

2017年2月28号,号称亚马逊AWS最稳定的云存储服务S3出现“超高错误率”的宕机事件。

最终,AWS给出了确切的解释:一名程序员在调试系统的时候,运行了一条原本打算删除少量服务器的脚本,结果输错了一个字母,导致大量服务器被删。被错误移除的服务其中运行着两套S3的子系统,从而导致S3不能正常工作,S3 API处于不可用状态。

由于S3负责存储文件,为AWS体系中的核心组成部分,这导致北弗吉尼亚日(美国东一)服务区中,依赖于S3存储服务的其他AWS的S3 控制台、Amazon弹性计算云(简称EC2)新实例启动、Amazon弹性块存储(简称EBS)分卷(限于需要读取S3快照的数据)以及AWS Lambda均受到影响。

为了修复这个错误,亚马逊不得不重启整个系统,在此之前已经几年都没有重启过了,最终导致了震惊全球的Amazon S3宕机4个小时事件。

【2018年】

AWS网络故障,故障持续时间不详。

2018年3月,亚马逊Alexa智能家居出现了区域性失灵,用户在家中唤醒亚马逊Echo系列产品时,Alexa会让用户重试并报告找不到服务器。

Alexa这一故障源于亚马逊AWS的网络服务出现了问题,不仅是Alexa,其他依赖AWS作为骨干网的应用在当天也受到了影响,其中包括软件开发公司Atlassian,云通讯公司Twilio等。

亚马逊的一位发言人表示,这可能跟弗吉尼亚州AWS的一个冗余互联网连接点断电有关。在后续的故障确认中,AWS表示已经引起了美东1区的多个数据中心故障。同时,数据包的丢失导致美国东部地区的一些AWS Direct Connect客户服务受到影响。也影响到了来自弗吉尼亚州阿什本的Equinix DC1 - DC6 & DC10 - DC12和来自弗吉尼亚州雷斯顿的CoreSite VA1 & VA2的Direct Connect连接。

AWS数据中心硬件故障导致云服务影响,持续时间30分钟。

2018年5月31日,因北弗吉尼亚地区的数据中心出现硬件故障,AWS再次出现连接问题。在此事故中,AWS的核心EC2服务,Workspaces虚拟桌面服务以及Redshift数据仓库服务均受到影响。

 

AWS管理控制台故障,故障持续近6小时。

2018年7月18日消息,亚马逊盛大的购物促销活动Prime Day遭遇了史上最大的尴尬,亚马逊网站和应用出现了重大技术故障,威胁到了其持续36个小时的销售盛宴。

与此同时,亚马逊核心产品AWS云服务也出现了中断。客户登录AWS管理控制台时,将收到一条带有狗图片的错误消息,消费者Prime Day在亚马逊网站上看到带有狗的图片类似。

AWS故障在声明中表示:“客户使用帐户登录时遇到间歇性错误,无法访问AWS管理控制台。”管理控制台是客户控制他们从Web使用AWS资源的方式的入口,该功能出现故障,客户将无法实现AWS资源的调配。

该故障持续了将近6小时,AWS发言人表示,间歇性的AWS管理控制台问题,并未对亚马逊的消费者业务产生任何有意义的影响,AWS和Prime Day问题没有关联。

AWS韩国服务器中断,故障时间持续一个多小时。

2018年11月23日亚马逊网络服务(AWS)的核心服务器在韩国全国发生中断,导致两个主要的加密货币在线交易平台停止运作。AWS是全球广泛使用的云服务之一,受到内部核心服务器故障的影响,导致主要的数字资产交易平台Upbit和Coinone戛然而止。据外媒报道,几个主要的电子商务中心在大约一个小时内也无法访问。

 

AWS表示“在太平洋标准时间下午3点19分到4点43分之间,亚太服务器错误率上升,但问题已得到解决,服务器正常运作。”亚马逊的声明细节也证实了首尔网络受到中断影响最大。Upbit平台在停电后发布了几份声明,并为无法提前告知用户突然停机而道歉。 Coinone平台还宣布进入维护模式。

【2019年】

AWS北京区域因光纤被挖断中断新实例启用,故障时间持续不详。

2019年6月1日晚,AWS北京区域CN-NORTH-1地区的隔夜道路施工中有几处光缆被切断,导致可用区无法链接Internet,进而引发所有可用区中新的实例无法启动的故障,包括EC2 API启用故障。因而EC2 API在整个CN-North-1区域都不可用。目前维修团队已经找到了具体的断点所在,正在尽力恢复过程中。

业内人士指出,这是一个北京区域一个可用区的光纤被市政施工挖断,被挖断不止一处。EC2 API接口部分正好在被挖断的那个可用区,所以不能启动新的实例。遭遇这样的事情,也说明了市政的施工队总是那么猝不及防。

以上内容信息整理自:新浪、搜狐、腾讯新闻等相关网站、信息平台、公开新闻报道。

如有编辑统计疏漏之处,还望各位业内朋友补充补充。

不过,知耻而后勇,公有云一哥我们看好你哦!

正所谓:

十年宕机两茫茫。

不思量。自难忘。

全球user,无处话凄凉。

纵使相逢应不识,惊满面,心拔凉。

夜来故障谁敢想。

喝不好。吃不香。

相顾无言,惟有码农忙。

料得年年云断处,明月夜,睡机房。

来源:阿明《江城子·十年宕机忙》

编辑评论:Aming

对此,你怎么看?

欢迎文末留言评论。

本文来源:阿明独立自媒体,版权所有,侵权必究,转载请授权

本文章和作者回复仅代表该作者个人观点,不构成任何投资建议。

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

全球公有云一哥AWS十年宕机故障大全 的相关文章

随机推荐

  • HashMap中为何X % length = X & (length - 1)(求余%和与运算&转换问题)

    目录 一 引出问题 二 结论 三 分析过程 总结 一 引出问题 在前面讲解 HashMap 的源码实现时 有如下几点 初始容量为 1 lt lt 4 也就是24 16 负载因子是0 75 当存入HashMap的元素占比超过整个容量的75 时
  • Pod控制器(一)ReplicaSet

    目录 1 关于Pod控制器 1 1Pod控制器概述 1 2 控制器与Pod对象 1 3 ReplicaSet控制器 1 3 1 ReplicaSet概述 1 3 2 创建ReplicaSet 1 3 3 ReplicaSet管控下的Pod对
  • ajax同步异步的具体事例,Ajax同步和异步(示例代码)

    Ajax在默认情况下是异步执行的 即其属性 async boolean 是否异步 同步和异步的区别 同步 Client 向 Server请求数据 直到该部分数据返回时 Client在请求返回值后的相应程序队列才会按顺序执行 在此期间 Cli
  • 微信小程序 车牌号输入组件

    概述 一个小组件 用于方便用户输入车牌号码 详细 概述 有时候我们开发过程中会遇到需要用户输入车牌号的情况 让客户通过自带键盘输入 体验不好且容易出错 例如车牌号是不能输入O和I的 因此需要有一个自定义的键盘 让客户输入正确的车牌号 详细
  • 基于MyApps低代码平台生成的CRM实现客户的高效管理

    随着市场的发展 客户开始变得越来越重要 因此很多公司开始追求客户数量用尽浑身解数 可盲目发展 一股脑的想要扩大客户数量 也导致企业无法对客户进行有效的管理 不可避免地出现以下问题 1 没有对新客户做好分析 也疏于老客户的管理 导致客户流失的
  • 基于Qt的OpenGL编程(3.x以上GLSL可编程管线版)---(十七)深度测试

    Vries的教程是我看过的最好的可编程管线OpenGL教程 没有之一 其原地址如下 https learnopengl cn github io 04 20Advanced 20OpenGL 01 20Depth 20testing 关于深
  • 双目标定(二)单目标定基本原理

    主体思路 先处理纯二维平面的畸变问题 此处略过 矫正图片后 再来求解相机内外参数 基本思路是求得每个标定板对应的单应矩阵 再联合优化所有标定板数据得到相机内参矩阵 再得到每个标定板对应的外参 1 标定板平面到像平面的单应矩阵H 则对于每个棋
  • 短视频制作难度大吗?怎么剪辑短视频?

    随着抖音 快手等视频分享软件的兴起 很多人已经开始尝试制作短视频分享 那么 对于视频制作新手来说 短视频的制作难度大吗 其实 只要选对了视频制作软件 视频制作将会变得相当简单 在众多视频剪辑软件中 会声会影因其丰富的视频制作功能 直观的操作
  • python识别图像中的文字

    我们想识别图像中对我们有用的评论 所以需要卡一个阈值来仅仅获得对我们有用的信息 import easyocr 创建reader对象 import json reader easyocr Reader en result list reade
  • git --amend用法

    git commit amend 这个命令是让我们可以对上一次提交有修改 可以修改文件也可以修改说明 不产生新的commit 在我们有一次提交 然后提交之后评审发现代码有问题 我们没有进行和入 需要重新修改 但是我们又不能产生新的commi
  • IDEA中自动生成类图方法

    1 打开设置 File Setting或windows下按Ctrl Alt S 2 找到 Tools Diagrams 如下图 3 在Java Class Diagrams 中选中需要生成类图的对象 4 选中需要生成类图的对象 然后按Ctr
  • 将形如 0xAABBCC拆分成形如 三个数0xAA,0xBB,0xCC 及逆过程

    将形如 0xAABBCC拆分成形如 三个数0xAA 0xBB 0xCC pre class java private static int Int2Arr int a span span int s new int 3 span span
  • Java Post接口调用

    1 通过Cookies properties管理cookies cookies key1 AspNetCore Session cookies key2 TS01d2d863 cookies key3 ssoinfo cookies key
  • Kalman Filtering – A Practical Implementation Guide (wi_拔剑-浆糊的传说_新浪博客

    Kalman Filtering A Practical Implementation Guide with code 一个开源的C C 库 http kalman sourceforge net index php 另外一个基于末班类的开
  • Animator之RootMotion

    Unity3D 中 Generic 动画导入设置和 Root Motion 之间的关系 Unity3D 的 Mecanim 动画系统可以直接复用 3DS MAX 中制作的动画文件中的位移 这个就是通过 applyRootMotion 来达成
  • java计时器_Java 计时器

    1 Timer and TimerTask Timer是jdk中提供的一个定时器工具 使用的时候会在主线程之外起一个单独的线程执行指定的计划任务 可以指定执行一次或者反复执行多次 TimerTask是一个实现了Runnable接口的抽象类
  • 【Python 3.7】访客名单:编写一个 while 循环,提示用户输入其名字。用户输入其名字后, 在屏幕上打印一句问候语,并将一条访问记录添加到文件 guest_book.txt 中。

    Python 3 7 访客名单 编写一个 while 循环 提示用户输入其名字 用户输入其名字后 在屏幕上打印一句问候语 并将一条访问记录添加到文件 guest book txt 中 确保这个文件中的每条记录都独占一行 程序为 filena
  • Python实现GWO智能灰狼优化算法优化循环神经网络分类模型(LSTM分类算法)项目实战

    说明 这是一个机器学习实战项目 附带数据 代码 文档 视频讲解 如需数据 代码 文档 视频讲解可以直接到文章最后获取 1 项目背景 灰狼优化算法 GWO 由澳大利亚格里菲斯大学学者 Mirjalili 等人于2014年提出来的一种群智能优化
  • HLS图像处理系列——肤色检测

    本博文采用Xilinx HLS 2014 4工具 实现一个肤色检测的模块 其中 本文重点是构建HLS图像处理函数 新建HLS工程的步骤 本博文不再详述 本工程新建之后 只添加了五个文件 如下图所示 其中 top cpp中的主函数最终会综合生
  • 全球公有云一哥AWS十年宕机故障大全

    任何一个公有云供应商 在发展的历史长河中 都遭遇了这样那样的宕机 故障 或因人为因素 或因雷电太凶 或因机房停电 或因光缆被挖 或因代码错输 这些问题的出现与解决 正好也是公有云服务不断优化与提升的过程 不过 作为全球公有云的一哥 从可以查