初期成本低、彈性擴(kuò)展、安全、穩(wěn)定可靠,這是十余年以來,云服務(wù)越來越受歡迎的主要原因。
其中,對講究實(shí)時在線、實(shí)時響應(yīng)的To B服務(wù)而言,云服務(wù)的可靠性是對企業(yè)最迷人的吸引力。能提供99.99%甚至99.999%可靠性的云服務(wù),幫助企業(yè)每年減少了太多宕機(jī)時間,間接賺取了更多收益。
以99.999%可靠性為例,其代表著企業(yè)每年只有5分鐘的停機(jī)時間,而99.99%可靠性意味著企業(yè)每年停機(jī)時間為1小時。相關(guān)數(shù)據(jù)顯示,企業(yè)IT系統(tǒng)停機(jī)1小時的平均成本為26萬美元,而停機(jī)5分鐘,平均成本僅為2600美元。
盡管云服務(wù)商已經(jīng)盡力將云服務(wù)的可靠性做到99.99%甚至99.999%,但仍然有宕機(jī)的可能性。而承載全球各地企業(yè)海量業(yè)務(wù)的云服務(wù)商一旦宕機(jī),其導(dǎo)致的后果不堪想象。
云服務(wù)商的宕機(jī),既是企業(yè)所擔(dān)心的,畢竟自身的業(yè)務(wù)受到影響;更是云服務(wù)商們自己痛心疾首的事。因?yàn)殄礄C(jī),云服務(wù)商們提供服務(wù)的可靠性將遭到質(zhì)疑,影響新客戶的簽約,也影響老客戶的續(xù)約。
回顧即將劃上句號的2021年,在全球范圍內(nèi),令云服務(wù)商們痛心疾首的宕機(jī)事件,也在多家云服務(wù)商身上發(fā)生了多次。
01AWS:不太平的12月3次宕機(jī)
一組有趣的數(shù)據(jù)顯示:2010年至2019年間,AWS平均每年宕機(jī)次數(shù)達(dá)2.4次。而僅僅在2021年的最后一個月,AWS便發(fā)生了3次宕機(jī)。
12月第一次宕機(jī)發(fā)生美國東部時間7日,位于弗吉尼亞州北部 (US-EAST-1)區(qū)域,本次宕機(jī)從上午10點(diǎn)45分持續(xù)到下午2點(diǎn)22分,包括迪斯尼+、奈飛、Robinhood、Roku等大量熱門網(wǎng)站和應(yīng)用都發(fā)生嚴(yán)重的網(wǎng)絡(luò)中斷。同時,亞馬遜自身的Alexa AI助理、Kindle電子書、亞馬遜音樂、Ring安全攝像頭等業(yè)務(wù)也受到影響。
12月10日,AWS公布了本次宕機(jī)的原因:用于擴(kuò)展主 AWS 網(wǎng)絡(luò)中托管的某個 AWS 服務(wù)的容量的自動活動觸發(fā)了來自內(nèi)部網(wǎng)絡(luò)內(nèi)大量客戶端的意外行為導(dǎo)致連接活動激增,使內(nèi)部網(wǎng)絡(luò)和主 AWS 網(wǎng)絡(luò)之間的聯(lián)網(wǎng)設(shè)備不堪重負(fù),從而導(dǎo)致這些網(wǎng)絡(luò)之間的通信延遲。這些延遲增加了在網(wǎng)絡(luò)之間通信的服務(wù)延遲和錯誤,從而導(dǎo)致更多的連接嘗試和重試,最終引發(fā)持續(xù)的堵塞和性能問題。
12月第二次宕機(jī)發(fā)生在16日太平洋標(biāo)準(zhǔn)時間上午7點(diǎn)43分左右,本次宕機(jī)波及US-WEST-1和US-WEST-2兩個區(qū)域,包括Twitch、Zoom、PSN、Xbox Live、Doordash、Quickbooks Online和Hulu等在線服務(wù)均受到影響。
AWS隨后公布了故障原因:由于主網(wǎng)絡(luò)中某自動化軟件原因,錯誤得將一些流量轉(zhuǎn)移到主干網(wǎng),結(jié)果影響了一些互聯(lián)網(wǎng)應(yīng)用的連接。
12月第三次宕機(jī)發(fā)生在23日美國東部時間7點(diǎn)30分左右,位于弗吉尼亞州北部的US-East-Region 1中斷影響了許多服務(wù),包括Slack、Epic Games、加密貨幣交易所Coinbase Global、游戲公司Fortnite 、約會應(yīng)用程序Grindr和交付公司Instacart。對于此次中斷,AWS初步調(diào)查稱是數(shù)據(jù)中心供電的問題。
02 Azure:Windows虛擬機(jī)全球性故障
今年10月23日,Azure Virtual Machines發(fā)生了一起長達(dá)6小時的中斷,使得包括美洲、歐洲、中東及非洲到亞太地區(qū)在內(nèi)全球用戶無法啟動基于Windows的新系統(tǒng)。
據(jù)悉,故障發(fā)生了05:12 UTC(世界標(biāo)準(zhǔn)時間)到 11:45 UTC 之間,使用 Windows 虛擬機(jī)的 Azure 客戶子集在執(zhí)行服務(wù)管理操作時面臨問題,包括啟動、創(chuàng)建、更新、刪除,新虛擬機(jī)的部署和更新也失敗了。
基于Linux的虛擬機(jī)和現(xiàn)有運(yùn)行的 Windows 虛擬機(jī)沒有受到該問題影響。此外,在創(chuàng)建資源時,對Windows 虛擬機(jī)有依賴的服務(wù)也可能遇到類似故障。
事后,微軟公布的中斷原因?yàn)椋涸诜?wù)管理操作期間的調(diào)用故障,原因是所需的工件版本在查詢期間未按預(yù)期返回。
此外,在今年3月16日,Azure也發(fā)生了一次中斷。其Active Directory出現(xiàn)故障,用戶無法登錄到Microsoft 365、Microsoft Teams、Exchange Online、Forms、Xbox Live和Yammer。同時,這起中斷也影響了微軟旗下多個網(wǎng)站,如用戶無法登陸其技術(shù)社區(qū)。
后續(xù)微軟證實(shí),本次故障是由于Azure Active Directory配置問題所致,使得用戶們無法完成身份驗(yàn)證以登錄到Microsoft 365、Exchange、Online、Microsoft Teams或其他依賴AAD的服務(wù)。
03 IBM Cloud:5天2次宕機(jī)
今年5月22到26日,藍(lán)色巨人在短短5天里接連發(fā)生兩次嚴(yán)重中斷事件,其中5月25日的中斷為一級嚴(yán)重問題(Severity One),這是IBM來描述關(guān)鍵業(yè)務(wù)系統(tǒng)無法正常運(yùn)行的評級。
據(jù)悉,該中斷發(fā)生了5月25日UTC 14點(diǎn)54分 ,華盛頓特區(qū)、大阪、倫敦、達(dá)拉斯、悉尼、東京和法蘭克福等地云服務(wù)統(tǒng)統(tǒng)受到影響。
具體到受影響的服務(wù),包括Cloudant NoSQL DB、Code Engine、Continuous Delivery-Toolchain、 DNS Services、Event Streams、 Hyper Protect Crypto Services、Hyper Protect Virtual Server、Hyper Protect DBaaS、 IBM Cloud Shell、 IBM Watson Machine Learning、Mobile Foundation以及 IBM MQ。從UTC 20點(diǎn)10分開始,服務(wù)陸續(xù)恢復(fù)。
除此之外,在今年6月10日,IBM Cloud也發(fā)生了一起全球性的中斷。此次中斷涉及IBM AoC 托管存儲服務(wù),進(jìn)而影響了IBM位于阿姆斯特丹、金奈、達(dá)拉斯、法蘭克福、香港、倫敦、墨爾本、墨西哥、米蘭、蒙特利爾、奧斯陸、圣何塞、圣保羅、首爾、悉尼、東京、多倫多、華盛頓特區(qū)、巴黎和新加坡等多地的用戶。
04Google Cloud:新區(qū)域上線便癱瘓
Google Cloud今年也發(fā)生了兩次宕機(jī),其中一次為今年11月16日:谷歌云表示,網(wǎng)絡(luò)配置中的潛在錯誤影響了Google Cloud Networking、Google Cloud Functions、Google Cloud Run、Google App Engine、Google App Engine Flex、Apigee 和 Firebase,進(jìn)而引起中斷,Spotify、Discord、Etsy、Pokémon Go等客戶受到影響。
具體而言:Google Cloud Networking :用戶無法更改網(wǎng)站上的負(fù)載平衡,導(dǎo)致出現(xiàn) 404 錯誤頁面;Google Cloud Functions :使用 Google Cloud Load Balancing (GCLB) 的用戶站點(diǎn)顯示 404 錯誤;Google Cloud Run :美國中部的流量下降了 25%,使用 GCLB 的用戶站點(diǎn)顯示 404 錯誤。Google App Engine :美國中部和西歐的流量下降 80%,使用 GCLB 的客戶網(wǎng)站出現(xiàn) 404 錯誤;Google App Engine Flex :使用 GCLB 的客戶站點(diǎn)上出現(xiàn) 404 錯誤以及部署該工具的問題;Apigee :使用 GCLB 向用戶發(fā)出請求時出現(xiàn) 404 錯誤;Google Firebase :使用 GCLB 的用戶站點(diǎn)上出現(xiàn) 404 錯誤。
今年8月24日,Google Cloud在澳大利亞墨爾本上線一個月的新區(qū)域發(fā)生了中斷,該區(qū)域用戶無法正常使用虛擬機(jī)、負(fù)載均衡系統(tǒng)、存儲等服務(wù)。
05 國內(nèi):一片祥和
或許是國內(nèi)云服務(wù)商的技術(shù)太好,也或許是公關(guān)能力更強(qiáng),國內(nèi)的云服務(wù)商在2021年并未出現(xiàn)過于嚴(yán)重的宕機(jī)事件,一方面表現(xiàn)在宕機(jī)次數(shù)少,另一方面表現(xiàn)在宕機(jī)引起的后果并未太多嚴(yán)重。分別來看:
阿里云在12月7日早上部分CDN域名解析發(fā)生了異常。同時當(dāng)天,由阿里云支撐的淘寶也發(fā)生了短暫崩潰事件。而在今年3月,淘寶同樣也崩潰過一次。
騰訊云12月24日北京二區(qū)發(fā)生了部分云服務(wù)故障,后續(xù),騰訊云表示是因?yàn)殡娏ο到y(tǒng)問題;除此之外,由騰訊云支撐的QQ、王者榮耀、微信在10月、11月均出現(xiàn)了短暫崩潰事件;8月31日,由于運(yùn)營商網(wǎng)絡(luò)原因,騰訊云故障7分鐘。
華為云自2020年4月10日出現(xiàn)大規(guī)模崩潰后,在2021年對宕機(jī)相當(dāng)謹(jǐn)慎,并未傳出其宕機(jī)的事,在7月份B站的一次崩潰被傳出是因?yàn)槿A為云的服務(wù)原因,后續(xù)華為云迅速辟謠與自己無關(guān)。
京東云2021年對外服務(wù)并未出現(xiàn)宕機(jī)事件,但由于支撐自家京東商城,所以還是會短暫出現(xiàn)中斷事件。
國內(nèi)其他云服務(wù)商暫未發(fā)現(xiàn)其在2021年發(fā)生宕機(jī)事件,如有遺漏,歡迎評論區(qū)留言~
本文來自微信公眾號“中智觀察”(ID:Hapiweb-soft6),作者:木易,編輯:蘇蘇,36氪經(jīng)授權(quán)發(fā)布。
- 濕地之美|廣州海珠濕地
- (熱點(diǎn)觀察 漫評)美國對歐洲盟友“下狠手”
- 全球微動態(tài)丨德媒文章:政治極化愈演愈烈,美國民主面臨墮落
- 每日觀察!海河觀津丨百萬候鳥來“息”,它們?yōu)楹纹珢郾贝蟾郏?/a>
- 焦點(diǎn)!一起來拍中國空間站!
- 焦點(diǎn)播報(bào):北京新增本土感染者16例 詳情公布
- 天天快看點(diǎn)丨遼寧匯聚高校校友資源 引青年人才在遼創(chuàng)新創(chuàng)業(yè)
- 每日熱文:夢天成功發(fā)射!天空飄來一個字:6
- 環(huán)球最資訊丨長圖丨“院士天團(tuán)”做優(yōu)“湖南飯”,該是什么味?
- 常益懷等5市州明早有大霧 出行請注意安全
- 環(huán)球動態(tài):11月全省溫高干旱持續(xù)發(fā)展
- 【全球獨(dú)家】10月制造業(yè)PMI為49.2% 建筑業(yè)景氣水平較高
- 環(huán)球今日訊!亞馬遜營業(yè)利潤率下降至2% 國內(nèi)頭部電商或進(jìn)一步搶占海外市場
- 國家藥監(jiān)局:促進(jìn)彩色隱形眼鏡生產(chǎn)經(jīng)營企業(yè)規(guī)范化發(fā)展
- 即時焦點(diǎn):智慧芽升級科創(chuàng)力評估平臺 累計(jì)上線12條產(chǎn)業(yè)技術(shù)鏈
- 【世界熱聞】內(nèi)蒙古啟動人力資源誠信服務(wù)示范機(jī)構(gòu)評選
- 環(huán)球觀焦點(diǎn):內(nèi)蒙古:這5項(xiàng)職業(yè)資格考試暫停
- 全球熱門:飛天圓夢|靜待夢天,中國空間站在軌建造收官在即
- 飛天圓夢|“夢天”已就位!楊利偉動情講述“初代”航天人故事
- 對標(biāo)保時捷Taycan?大眾中國功勛蘇偉銘親自下場造車
- 北京石景山開展冬季供暖前特種設(shè)備安全專項(xiàng)檢查
- 陜西延安:開展兒童化妝品專項(xiàng)檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項(xiàng)監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進(jìn)網(wǎng)絡(luò)直播營銷治理顯成效 培育放心消費(fèi)直
- 北京延慶對重點(diǎn)行業(yè)開展格式條款專項(xiàng)檢查 做好市
- 北京海淀開展電動自行車整治夜查行動 全力保障轄
- 江蘇昆山全力規(guī)范大閘蟹市場秩序 營造安全放心消
- 福建寧化開展“兩品一械”網(wǎng)絡(luò)銷售專項(xiàng)檢查 保障
- 北京懷柔:開展市場綜合執(zhí)法監(jiān)督檢查 督導(dǎo)各類經(jīng)
- 天津河?xùn)|:多措并舉推進(jìn)企業(yè)信用修復(fù)工作 助力轄