首頁>資訊 >
盤點(diǎn)2021那些令云服務(wù)商痛心疾首的宕機(jī),AWS、IBM多次上榜 2021-12-30 20:18:45  來源:36氪

初期成本低、彈性擴(kuò)展、安全、穩(wěn)定可靠,這是十余年以來,云服務(wù)越來越受歡迎的主要原因。

其中,對講究實(shí)時在線、實(shí)時響應(yīng)的To B服務(wù)而言,云服務(wù)的可靠性是對企業(yè)最迷人的吸引力。能提供99.99%甚至99.999%可靠性的云服務(wù),幫助企業(yè)每年減少了太多宕機(jī)時間,間接賺取了更多收益。

以99.999%可靠性為例,其代表著企業(yè)每年只有5分鐘的停機(jī)時間,而99.99%可靠性意味著企業(yè)每年停機(jī)時間為1小時。相關(guān)數(shù)據(jù)顯示,企業(yè)IT系統(tǒng)停機(jī)1小時的平均成本為26萬美元,而停機(jī)5分鐘,平均成本僅為2600美元。

盡管云服務(wù)商已經(jīng)盡力將云服務(wù)的可靠性做到99.99%甚至99.999%,但仍然有宕機(jī)的可能性。而承載全球各地企業(yè)海量業(yè)務(wù)的云服務(wù)商一旦宕機(jī),其導(dǎo)致的后果不堪想象。

云服務(wù)商的宕機(jī),既是企業(yè)所擔(dān)心的,畢竟自身的業(yè)務(wù)受到影響;更是云服務(wù)商們自己痛心疾首的事。因?yàn)殄礄C(jī),云服務(wù)商們提供服務(wù)的可靠性將遭到質(zhì)疑,影響新客戶的簽約,也影響老客戶的續(xù)約。

回顧即將劃上句號的2021年,在全球范圍內(nèi),令云服務(wù)商們痛心疾首的宕機(jī)事件,也在多家云服務(wù)商身上發(fā)生了多次。

01AWS:不太平的12月3次宕機(jī)

一組有趣的數(shù)據(jù)顯示:2010年至2019年間,AWS平均每年宕機(jī)次數(shù)達(dá)2.4次。而僅僅在2021年的最后一個月,AWS便發(fā)生了3次宕機(jī)。

12月第一次宕機(jī)發(fā)生美國東部時間7日,位于弗吉尼亞州北部 (US-EAST-1)區(qū)域,本次宕機(jī)從上午10點(diǎn)45分持續(xù)到下午2點(diǎn)22分,包括迪斯尼+、奈飛、Robinhood、Roku等大量熱門網(wǎng)站和應(yīng)用都發(fā)生嚴(yán)重的網(wǎng)絡(luò)中斷。同時,亞馬遜自身的Alexa AI助理、Kindle電子書、亞馬遜音樂、Ring安全攝像頭等業(yè)務(wù)也受到影響。

12月10日,AWS公布了本次宕機(jī)的原因:用于擴(kuò)展主 AWS 網(wǎng)絡(luò)中托管的某個 AWS 服務(wù)的容量的自動活動觸發(fā)了來自內(nèi)部網(wǎng)絡(luò)內(nèi)大量客戶端的意外行為導(dǎo)致連接活動激增,使內(nèi)部網(wǎng)絡(luò)和主 AWS 網(wǎng)絡(luò)之間的聯(lián)網(wǎng)設(shè)備不堪重負(fù),從而導(dǎo)致這些網(wǎng)絡(luò)之間的通信延遲。這些延遲增加了在網(wǎng)絡(luò)之間通信的服務(wù)延遲和錯誤,從而導(dǎo)致更多的連接嘗試和重試,最終引發(fā)持續(xù)的堵塞和性能問題。

12月第二次宕機(jī)發(fā)生在16日太平洋標(biāo)準(zhǔn)時間上午7點(diǎn)43分左右,本次宕機(jī)波及US-WEST-1和US-WEST-2兩個區(qū)域,包括Twitch、Zoom、PSN、Xbox Live、Doordash、Quickbooks Online和Hulu等在線服務(wù)均受到影響。

AWS隨后公布了故障原因:由于主網(wǎng)絡(luò)中某自動化軟件原因,錯誤得將一些流量轉(zhuǎn)移到主干網(wǎng),結(jié)果影響了一些互聯(lián)網(wǎng)應(yīng)用的連接。

12月第三次宕機(jī)發(fā)生在23日美國東部時間7點(diǎn)30分左右,位于弗吉尼亞州北部的US-East-Region 1中斷影響了許多服務(wù),包括Slack、Epic Games、加密貨幣交易所Coinbase Global、游戲公司Fortnite 、約會應(yīng)用程序Grindr和交付公司Instacart。對于此次中斷,AWS初步調(diào)查稱是數(shù)據(jù)中心供電的問題。

02 Azure:Windows虛擬機(jī)全球性故障

今年10月23日,Azure Virtual Machines發(fā)生了一起長達(dá)6小時的中斷,使得包括美洲、歐洲、中東及非洲到亞太地區(qū)在內(nèi)全球用戶無法啟動基于Windows的新系統(tǒng)。

據(jù)悉,故障發(fā)生了05:12 UTC(世界標(biāo)準(zhǔn)時間)到 11:45 UTC 之間,使用 Windows 虛擬機(jī)的 Azure 客戶子集在執(zhí)行服務(wù)管理操作時面臨問題,包括啟動、創(chuàng)建、更新、刪除,新虛擬機(jī)的部署和更新也失敗了。

基于Linux的虛擬機(jī)和現(xiàn)有運(yùn)行的 Windows 虛擬機(jī)沒有受到該問題影響。此外,在創(chuàng)建資源時,對Windows 虛擬機(jī)有依賴的服務(wù)也可能遇到類似故障。

事后,微軟公布的中斷原因?yàn)椋涸诜?wù)管理操作期間的調(diào)用故障,原因是所需的工件版本在查詢期間未按預(yù)期返回。

此外,在今年3月16日,Azure也發(fā)生了一次中斷。其Active Directory出現(xiàn)故障,用戶無法登錄到Microsoft 365、Microsoft Teams、Exchange Online、Forms、Xbox Live和Yammer。同時,這起中斷也影響了微軟旗下多個網(wǎng)站,如用戶無法登陸其技術(shù)社區(qū)。

后續(xù)微軟證實(shí),本次故障是由于Azure Active Directory配置問題所致,使得用戶們無法完成身份驗(yàn)證以登錄到Microsoft 365、Exchange、Online、Microsoft Teams或其他依賴AAD的服務(wù)。

03 IBM Cloud:5天2次宕機(jī)

今年5月22到26日,藍(lán)色巨人在短短5天里接連發(fā)生兩次嚴(yán)重中斷事件,其中5月25日的中斷為一級嚴(yán)重問題(Severity One),這是IBM來描述關(guān)鍵業(yè)務(wù)系統(tǒng)無法正常運(yùn)行的評級。

據(jù)悉,該中斷發(fā)生了5月25日UTC 14點(diǎn)54分 ,華盛頓特區(qū)、大阪、倫敦、達(dá)拉斯、悉尼、東京和法蘭克福等地云服務(wù)統(tǒng)統(tǒng)受到影響。

具體到受影響的服務(wù),包括Cloudant NoSQL DB、Code Engine、Continuous Delivery-Toolchain、 DNS Services、Event Streams、 Hyper Protect Crypto Services、Hyper Protect Virtual Server、Hyper Protect DBaaS、 IBM Cloud Shell、 IBM Watson Machine Learning、Mobile Foundation以及 IBM MQ。從UTC 20點(diǎn)10分開始,服務(wù)陸續(xù)恢復(fù)。

除此之外,在今年6月10日,IBM Cloud也發(fā)生了一起全球性的中斷。此次中斷涉及IBM AoC 托管存儲服務(wù),進(jìn)而影響了IBM位于阿姆斯特丹、金奈、達(dá)拉斯、法蘭克福、香港、倫敦、墨爾本、墨西哥、米蘭、蒙特利爾、奧斯陸、圣何塞、圣保羅、首爾、悉尼、東京、多倫多、華盛頓特區(qū)、巴黎和新加坡等多地的用戶。

04Google Cloud:新區(qū)域上線便癱瘓

Google Cloud今年也發(fā)生了兩次宕機(jī),其中一次為今年11月16日:谷歌云表示,網(wǎng)絡(luò)配置中的潛在錯誤影響了Google Cloud Networking、Google Cloud Functions、Google Cloud Run、Google App Engine、Google App Engine Flex、Apigee 和 Firebase,進(jìn)而引起中斷,Spotify、Discord、Etsy、Pokémon Go等客戶受到影響。

具體而言:Google Cloud Networking :用戶無法更改網(wǎng)站上的負(fù)載平衡,導(dǎo)致出現(xiàn) 404 錯誤頁面;Google Cloud Functions :使用 Google Cloud Load Balancing (GCLB) 的用戶站點(diǎn)顯示 404 錯誤;Google Cloud Run :美國中部的流量下降了 25%,使用 GCLB 的用戶站點(diǎn)顯示 404 錯誤。Google App Engine :美國中部和西歐的流量下降 80%,使用 GCLB 的客戶網(wǎng)站出現(xiàn) 404 錯誤;Google App Engine Flex :使用 GCLB 的客戶站點(diǎn)上出現(xiàn) 404 錯誤以及部署該工具的問題;Apigee :使用 GCLB 向用戶發(fā)出請求時出現(xiàn) 404 錯誤;Google Firebase :使用 GCLB 的用戶站點(diǎn)上出現(xiàn) 404 錯誤。

今年8月24日,Google Cloud在澳大利亞墨爾本上線一個月的新區(qū)域發(fā)生了中斷,該區(qū)域用戶無法正常使用虛擬機(jī)、負(fù)載均衡系統(tǒng)、存儲等服務(wù)。

05 國內(nèi):一片祥和

或許是國內(nèi)云服務(wù)商的技術(shù)太好,也或許是公關(guān)能力更強(qiáng),國內(nèi)的云服務(wù)商在2021年并未出現(xiàn)過于嚴(yán)重的宕機(jī)事件,一方面表現(xiàn)在宕機(jī)次數(shù)少,另一方面表現(xiàn)在宕機(jī)引起的后果并未太多嚴(yán)重。分別來看:

阿里云在12月7日早上部分CDN域名解析發(fā)生了異常。同時當(dāng)天,由阿里云支撐的淘寶也發(fā)生了短暫崩潰事件。而在今年3月,淘寶同樣也崩潰過一次。

騰訊云12月24日北京二區(qū)發(fā)生了部分云服務(wù)故障,后續(xù),騰訊云表示是因?yàn)殡娏ο到y(tǒng)問題;除此之外,由騰訊云支撐的QQ、王者榮耀、微信在10月、11月均出現(xiàn)了短暫崩潰事件;8月31日,由于運(yùn)營商網(wǎng)絡(luò)原因,騰訊云故障7分鐘。

華為云自2020年4月10日出現(xiàn)大規(guī)模崩潰后,在2021年對宕機(jī)相當(dāng)謹(jǐn)慎,并未傳出其宕機(jī)的事,在7月份B站的一次崩潰被傳出是因?yàn)槿A為云的服務(wù)原因,后續(xù)華為云迅速辟謠與自己無關(guān)。

京東云2021年對外服務(wù)并未出現(xiàn)宕機(jī)事件,但由于支撐自家京東商城,所以還是會短暫出現(xiàn)中斷事件。

國內(nèi)其他云服務(wù)商暫未發(fā)現(xiàn)其在2021年發(fā)生宕機(jī)事件,如有遺漏,歡迎評論區(qū)留言~

本文來自微信公眾號“中智觀察”(ID:Hapiweb-soft6),作者:木易,編輯:蘇蘇,36氪經(jīng)授權(quán)發(fā)布。

關(guān)鍵詞: 痛心疾首 服務(wù)商 上榜

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片