外国服务器,香港服务器,美国服务器,高防服务器,服务器租用,服务器托管
首页 > 新闻资讯 > 行业资讯
2018十大云服务宕机故障盘点和问题所在
2019-01-02 22:01:03 | 来源:极客网络 | 作者:liuchuang

      根据 IDC 本年 7 月份发布的《我国公有云服务器市场半年度跟踪陈述》显现,阿里云的市场占有率已过 45%,腾讯云达到 10%。云服务器在全球市场,根据 Gartner 最新数据显现,亚马逊 AWS 占全球份额的 51.8%;微软 Azure 位列第二位,占比 13.3%;阿里云位列第三位,占比 4.6%;谷歌 Cloud 云服务器占比 3.3%;随后是 IBM,占比 1.9%。可见,这几大大型云供货商占据全球大部分市场,一旦云服务器呈现宕机,受影响的企业将无法估计。

      2018 年,云计算市场不只发展速度快,并且出现故障不断。云供货商与开源服务的矛盾不断晋级,大型云厂商均未逃过宕机事情,更有甚者一年呈现多次服务宕机,导致企业对公有云的信任继续走低。本文总结了 2018 年前十大云宕机故障,欢迎各位弥补经历过的云服务器事故时刻。

1 月 18 日:谷歌云主动化失效导致宕机
      故障概况:2018 年 1 月 18 日,谷歌云主动化机制失效,导致其 us-central1 和 europe-west3 两大可用区中的核算引擎停运 93 分钟。谷歌对此的回应是“网络编程失效”导致 Autoscaler(主动扩展器)服务无法正常运转,该服务失效意味着新的云服务器或刚搬迁的云服务器无法与其他可用区云服务器联系。
补救措施:工程团队手动切换到替换指令,以修复数据耐久层正常运转。
宕机时刻:93 分钟
事情后续:谷歌许诺,未来如果设备数据过期,谷歌将中止云服务器搬迁,数据耐久层会在长时刻运转进程期间重新解析对等体(peer),以便出现事故时迅速切换到替换任务中。

3 月 2 日:AWS 宕机致部分 Alexa 失声
       故障概况:2018 年 3 月 2 日凌晨,依靠 AWS 服务的部分 Alexa 开端呈现失声问题,该智能音箱的红色指示灯不停闪耀表明服务呈现中止,Alexa 也一直宣布系统内置抱歉声。随后几小时内,Alexa 又接到了成千上万封投诉。据了解,Alexa 这一事故源于亚马逊 AWS 的网络服务呈现问题,其他依靠 AWS 作为骨主网的应用在当天也受到了影响,包括软件开发公司 Atlassian,云通讯公司 Twilio 等。
补救措施:亚马逊 AWS 的在线支持团队对此进行了恢复。
宕机时刻:数小时(事因发凌晨,未在第一时刻影响大部分用户)
事情后续:亚马逊 AWS 未对此事故进行详细阐明,只透露与网络访问有关。

5 月 31 日:AWS 北弗吉尼亚区域数据中心呈现硬件问题
       故障概况:2018 年 5 月 31 日,因北弗吉尼亚区域的数据中心呈现硬件问题,AWS 再次呈现连接问题。在此故障中,AWS 的中心 EC2 服务,Workspaces 虚拟桌面服务以及 Redshift 数据仓库服务均受到大面积影响。
补救措施:人为恢复
宕机时长:30 分钟左右
事情后续:亚马逊公司 S3 的副总裁兼总经理 Mai-Lan Tomsen Bukovec 近日接受采访表明,亚马逊从未见过数据中心崩溃。这意味着,曩昔的每一次故障都未曾导致整个数据中心的崩溃,AWS 也在体系规划层面进行了改善以防止此类故障发作。

6 月 17 日:微软 Azure 爱尔兰数据中心宕机
       故障概况:2018 年 6 月 17 日至 18 日,因爱尔兰数据中心的恒温系统呈现问题,微软 Azure 被高温影响导致存储和网络中止。
宕机时刻:5 小时以上

6 月 27 日:阿里云事故
      故障概况:2018 年 6 月 27 日 16:21 左右,阿里云呈现严峻技能问题,16:50 分开端连续修复,官方给出的问题时刻为 30 分钟左右,修复时刻大约花费一小时。通过技能复盘,阿里给出的问题原因为工程师团队上线主动化运维新功用时,执行了一项改变验证操作,该操作在测验环境中未发作问题,上线后触发不知道 bug。
补救措施:人工介入,定位并解决问题。
宕机时刻:30 分钟,修复时刻花费一小时左右。
事情后续:本次故障被定义为 S1 级别,即中心业务重要功用不可用,影响部分用户,造成必定丢失。阿里云发布官方声明,表明“关于这次问题,没有借口,我们不能也不该呈现这样的失误!我们将认真复盘改善主动化运维技能和发布验证流程,敬畏每一行代码,敬畏每一份托付。”

7 月 20 日:腾讯云云硬盘问题
       故障概况:2018 年 8 月 5 日,北京清博数控科技有限公司(以下简称“前沿数控”)在官方微博发布了一篇题为《腾讯云给一家创业公司带来的灾祸》的博文,文中表明,2018 年 7 月 20 日,腾讯如此硬盘发作问题(腾讯云后期给出的故障原因阐明),导致该公司存放的数据悉数丢掉,并且不能修复,这是该创业公司近千万元级的渠道数据,包括通过长期推行导流堆集起来的精准注册用户以及内容数据。
补救措施:腾讯云表明,监控到异常后第一时刻向用户告知了问题状态,并当即安排文件体系专家并联合厂商技能专家尝试修正数据。但通过多方尽力,最终仍有部分数据完整性校验失利。
事情后续:腾讯云提出“赔偿 + 补偿”计划,并许诺会继续与“前沿数控”保持沟通,帮助其进行事务修复。

7 月 24 日:腾讯云宕机
       故障概况:2018 年 7 月 24 日,用户登录腾讯云时重复呈现超时、退出等情况,即便更换运营商,成果也相同。随后,腾讯云发布告诉称初步确定是运营商光缆中止,运营商现已找到断点,正在连线中,主要受影响的为广州区域部分用户。
补救措施:运营商第一时刻介入抢修。
宕机时刻:宕机时刻不明,修复时刻花费 30 至 40 分钟。

Prime Day:亚马逊 AWS 问题
      故障概况:Prime Day 是亚马逊在全球范围内发动的为期 36 小时的会员促销活动,活动刚开端,亚马逊网站及 App 就同时发作严峻宕机,不但电子商务事务受损,亚马逊的其他产品和服务都受到了不同程度的影响。亚马逊对此给出的解说是 AWS 办理控制台呈现全球性问题。
宕机时刻:问题继续了将近 6 小时。
事情后续:AWS 发言人表明,间歇性的 AWS 办理控制台问题并未对亚马逊的消费者事务产生任何有意义的影响。

9 月 4 日:微软 Azure 数据中心遭雷劈宕机
      故障概况:9 月 4 日上午,微软 Azure 美国中南区数据中心附近发作雷击在内的恶劣天气,影响冷却体系的电压,导致多个 Azure 服务呈现连接问题,客户难以访问存储在该区数据中心的资源。受影响的服务包括 Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。
补救措施:9 月 5 日上午,微软工程师已修复数据中心的电力和大多数网络设备,其他服务也在连续修复中。
宕机时刻:超过 24 小时

11 月 9 日:谷歌公有云下的 Kubernetes 服务(GKE)宕机
      故障概况:11 月 9 日,谷歌公有云上提供的 Kubernetes 服务(GKE)节点池建置功用呈现异常,维运人员无法透过 Cloud Console UI 树立新节点。
补救措施:谷歌派工程团队调查问题原因,并开端着手维修。谷歌表明,受影响的企业用户可以先改为使用 GCP 内建的 gcloud command,建置新 Kubernetes 节点。
宕机时刻:接近 19 小时

      关于许多中小企业来说,自建机房的人力和维护本钱太高,他们期望使用云计算的低本钱、可扩展性、可靠性和便利性等优点,但却忧虑面对危险。这些危险通常是相同的,例如安全漏洞、监管问题,以及缺少有关如何构建最佳云计算基础设施的知识。而在曩昔几年,云供货商还发作过数起大大小小的问题,也阐明企业的忧虑不是多余的。跟着越来越多的企业和政府机构将数据上云,即便仅仅一个小小的宕机都或许引发很大的灾祸。即便是提供 99.9% 可靠性的阿里云,那 0.1% 的宕机仍是发作了。
      考虑到企业的这些需求,现在混合云的趋势也比较明显,许多公有云厂商都在布局混合云市场。凭借混合云,企业在提高生产力的同时还能降低本钱,也不用彻底投入到公有云当中。可是混合云也还存在兼容性和安全合规性方面的应战,所以为了尽或许地减少问题带来的丢失,企业不只要树立完善的灾备保障体系,还应该对灾备体系进行定时演练。



最新新闻

查看更多

相关新闻

查看更多

推荐优选服务器

国内外服务器租用、服务器托管,365天24小时极致服务体验~认准极客网络!
在线咨询
24H在线售后
11082052
24H服务热线
0769-88836624
IDC/ISP/IRCS/增值电信业务经营许可证号:粤B1-20190887
COPYRIGHT © 2010-2018 广东极客网络科技有限公司 版权所有.粤ICP备18157343号
极客网络提供:服务器租用,服务器托管,高防服务器,香港服务器,美国服务器,韩国服务器,日本服务器,台湾服务器,免备案服务器,bgp高防服务器,站群服务器,等外国服务器IDC服务;敬请放心选购!

在线
客服

客服
热线

0769-88836624
7*24小时服务热线

关注
微信

马上推出关注官方微信
顶部