就算沒有暴雨,在云時代,人們對宕機的容忍度也越來越小,這對數據中心容災的能力提出了新挑戰。
文 | 吳俊宇 顧翎羽
編輯 | 謝麗容
“上云”已是共識,但云計算在自然界的“云”面前依舊脆弱。
7月18日18時開始,河南鄭州出現罕見持續強降水天氣過程。強降雨導致當地多區域電力、電信基礎設施受到影響。云服務需要24小時在線,電力是其基礎。斷電的直接結果是,云服務受到了不同程度的沖擊。
7月21日,中國移動公告稱,河南部分地區受極端天氣影響,樞紐機房斷電,目前無法正常辦理移動業務。
當天,河南本地一家名為海騰數據的服務商也在官網掛出數據中心受影響的通知。該公司稱,機房由柴油發電帶載,附近油站因道路積水導致無法供油到機房。考慮到存儲油量有限,市電恢復時間不確定,建議用戶緊急備份數據,或遠程關機以避免數據受損。
7月22日,《財經》記者致電多位海騰數據人士得知,其服務依舊尚未完全恢復。出問題的鄭州機房已有十余年歷史,存儲了當地政府、企業的數據。
此外,中國聯通、中國電信也不同程度受到了影響。部分互聯網公司在鄭州的服務器節點出現波動。老牌網絡原創文學平臺晉江文學在7月20日發布公告稱,主要網站業務所在的異地骨干機房在鄭州市,機房因為暴雨停電暫時靠備用發電機供電,部分線路會有不穩定現象。這意味著,短時間內,晉江文學的一部分服務和用戶將受到波及。
在中國企業在“上云”越來越普遍的情況下,云基礎設施的7×24小時運轉顯得愈發重要。公司規模越大,用戶越多,宕機造成的服務中斷將引發越嚴重的后果。鄭州暴雨前一周,B站、A站、豆瓣、晉江文學也曾因服務器故障服務長時間中斷。尤其是中國最大的視頻社區平臺B站的宕機,在全網引發轟動。
人們對云宕機的容忍度幾乎到了無法容忍的地步了。“水電煤”是生活必需品,云作為新一代的“水電煤”,也斷不起。數據中心作為云計算的基礎設施,和發電廠、自來水廠一樣舉足輕重。
自然災害不可抗拒,但除了緊急啟動保護措施,數據中心其實在災害發生前有一整套“容災備災”的機制。如何建立這套機制,正是這次暴雨留下的最大教訓。
01
被暴雨沖擊的“云”
此次鄭州暴雨來的又急又猛。
鄭州市氣象臺數據顯示,18日-20日三天降雨量617.1mm。鄭州常年平均全年降雨量為640.8mm。這意味著三天下了以往一年的量。
暴雨以及隨之而來的內澇直接導致電力設備崩潰了。鄭州市區一座110千伏變電站被迫停止運行,部分區域生產生活用電受到影響。通信運營商是重要的受影響對象。鄭州暴雨致多處通信網絡中斷。截至7月21日10時,鄭州移動基站停電3563個,基站退服3152個。這還不包括當地的聯通和電信。
如此暴雨下,云基礎設施也很難獨善自身。
事實上,和北京、東部沿海、南部沿海城市相比,位于中部地區的鄭州并非云廠商數據中心的集中所在地。阿里云、騰訊云、百度云均未在此建設數據中心,也沒有關鍵節點。
但鄭州本地有多家云服務代理商,包括景安網絡、海騰數據、億恩網絡、騰佑科技等公司。它們通常提供服務器托管、IDC加速等云計算周邊服務。它們在中原地區很重要,甚至被一些三方研究報告稱為本地IDC龍頭企業。
簡單理解,大型云廠商在全國重要區域會建設云計算的“大腦”和“骨架”,但在無法全面覆蓋的其他區域,這些代理商則是提供了“血管”或是“毛細血管”的服務。
值得注意的是,他們大多位于鄭州高新技術產業開發區,也就是這次暴雨核心影響區域之一。
有消息稱,暴雨發生后,海騰數據在其官網掛出了數據中心受到影響的通知。該公司建議用戶緊急備份數據,或遠程關機以避免數據受損。記者致電海騰數據相關人士得知,斷電之后,其柴油發電設備隨即上線,但供油量不足,無法覆蓋所有服務器。
受影響的還有景安網絡,《財經》記者致電景安網絡人士得知,其機房位于鄭州東部的高新技術產業開發區。20日下午16時,斷電導致服務器下線。截至7月21日下午18點,該公司已經通過柴油發電機緊急供電,但服務依舊不穩定。
前述的另一家鄭州本地IDC服務商情況類似。這家公司也在鄭州高新區。該公司有技術人士證實,其服務也因斷電受到沖擊。好在公司服務器都在二樓,沒有被泡,不會因暴雨而不可挽回。
一位頭部云廠商資深技術人士解釋說,服務器被浸泡會直接導致服務中斷,設備受損。嚴重情況下,IT設備可能直接報廢。其中的數據也會遭遇無可挽回的丟失。
該技術人士認為,通常情況下,云廠商對數據中心的選址、建造都有考慮,容災備災技術能力相對較強。數據中心用電會有一套三級保護機制,除了正常供電外還有柴油發電、蓄電池,可以保證全年不間斷供電。為避免暴雨、洪災的影響,服務器通常會放在二樓以上。
不過,這次鄭州暴雨強度太大,直接導致鄭州本地部分服務商三級保護失效了。
首先是城市大規模、長時間斷電。中國電網鄭州供電公司此前在面對媒體“停電搶修為何這么久”的疑問時回應,大水浸泡過后的受損電力設備都需要搶修后重新做實驗,保證安全的情況下才能送電。云服務商機房里的柴電設備、備用電源在長時間斷電的情況下,不敢給所有機房同時開足馬力。
另外,部分公司的柴電設備、備用電源均被特大暴雨“一鍋端了”。前述鄭州本地IDC服務商一位技術人士說,公司柴電設備在戶外、備用電源智能撐1小時-2小時。暴雨襲來,一樓被泡,發電機和電源都派不上用場,兩個大機房都受到了影響。
其中還包含少部分人為因素。一位資深技術人士告訴《財經》記者,一些嚴格的做法是,服務器、IDC機房會擺放規則,還會限制服務器的數量、擺放密度,以及備用電源的所在區域。目的就是避免出現“一鍋端”現象,但這樣成本會高很多。除了電信運營商的大型機房,大部分中小型企業會選擇低成本模式。
云計算服務中斷往往會連帶造成客戶損失。當問及客戶損失要如何處理時,景安網絡相關人士表示,目前已經多次接到相關反饋,公司會予以處理。上述鄭州本地IDC服務商技術人士則稱,暫時無法預估哪些客戶受到了何種程度的沖擊,也不知如何賠付。目前只能先考慮恢復服務。
《財經》記者查閱政府采購網、部分企業合同發現,關于服務器托管部分,往往一般會有一項“不可抗力條款”。不可抗力通常指地震、臺風、火災、水災、戰爭、罷工以及其他雙方共同認同的不能預見、不能避免并不能克服的客觀情況。
部分“不可抗力”引發的事故被視為甲乙雙方均不用承擔責任。但在部分合同中,不可抗力引發的事故有嚴格的分級指標,而且服務商需要承擔不同級別的責任。
7月22日,《財經》記者再次致電景安網絡和上述鄭州本地IDC服務商。對方回應稱電力供應暫時尚未恢復,目前柴電設備處于滿負載狀態。好在鄭州大雨已經暫停,預計22日內可恢復服務。
02
好的防御機制越來越重要
云計算中心的事故通常是天災人禍綜合因素的結果。
鄭州并非全國核心數據中心主要聚集地。此次暴雨雖然受到了一定沖擊,好在沖擊并未造成重大事故,尚在可接受范圍內。
歷史上,亞馬遜、三星,歐洲最大的云服務和網絡托管服務運營商OVH都遭遇過重大事故,甚至部分事故引發了不可挽回的嚴重后果。
2012年7月,美國東海岸大型雷電風暴導致中部各州斷電。亞馬遜一數據中心因此暫停服務。這導致Netflix、Instagram、Pinterest以及Tinder等多個美國國民級App癱瘓。
2014年4月,三星在韓國首爾郊區果川的機房發生重大火災。三星官網因此暫時癱瘓,部分手機用戶的服務也受到了影響。
2021年3月,歐洲云計算巨頭OVH位于法國斯特拉斯堡的機房發生嚴重火災。大火導致了五層高、占地 500 平方米的 SBG2 數據中心被燒毀。這直接引發1.5萬名客戶的資料可能受到影響,部分客戶數據完全丟失且無法恢復,其中還包括法國政府的部分數據。
這類重大安全事故在國內目前相對少見,但并不排除未來會出現。隨著國內上云速度進一步加快,如何避免重大安全事故,保證基礎設施穩定運行將是一個重要核心議題。
此前多家云廠商管理與技術人士曾對《財經》記者表示,數據中心安全保護不可能靠臨時抱佛腳解決,全靠形成一整套完整的選址、防護、備災以及容災機制。
其中一位騰訊基礎架構部人士說,“這套機制就像在一個可能會決堤的河流上提前修起大壩。我們應該靠機制減少抗洪搶險的現象。”
建立選址、備災、防護體系是為了讓數據中心有一套“安全網”。比如,頭部云廠商選址時會統籌考慮自然因素。數據中心通常會遠離地震、洪水等災害多發地。不能避免這個問題的話,也有解決措施。比如,在火災高發地,洪災高發地都有不同建設方案。
“不同數據中心的備災措施需要根據當地的自然環境各方面去統籌考慮。”阿里IDC事業部總經理高山淵說,設計備災措施時,方案如何執行、誰去執行只是基本考慮因素。備用設備的狀態切換時間、啟動成功率等細致因素都需要一一想到。這都是盡量提高備用設施的啟動概率。
容災則是形成了容錯機制。“多點多活”是其中的重要辦法。簡單說,就是讓數據長出“三頭六臂”,砍掉一個之后,依然可以正常運轉。或是讓一個面臨重大災害的人被瞬間傳送到其他安全場所。
阿里云數據中心能源與碳管理專家毛宏舉向《財經》記者解釋,保障數據中心和云服務的可靠性,不僅需要保障硬件,軟件層面也要有備份,“相當于云服務的容錯機制”。即使在最糟糕的情況下,一處數據中心出現故障,也可以把這部分負載切到其他地方。
一位百度云人士則透露,百度業務是多地域容災部署(華北/華東/華南三地域),數據在每個地域都有副本,同時還有離線遠程備份,能容忍單個地域出現的極端災害。
也有騰訊基礎架構部人士此前對《財經》記者稱,騰訊春晚保障團隊其實就是在反復練兵。前些年,各個頭部互聯網公司的“容災備災”在春晚紅包活動中得到了沉淀。
實戰才是檢驗各個云廠商“容災備災”最佳方式。不過,沒人會希望這一天真正到來。
文 | 吳俊宇 顧翎羽
編輯 | 謝麗容
“上云”已是共識,但云計算在自然界的“云”面前依舊脆弱。
7月18日18時開始,河南鄭州出現罕見持續強降水天氣過程。強降雨導致當地多區域電力、電信基礎設施受到影響。云服務需要24小時在線,電力是其基礎。斷電的直接結果是,云服務受到了不同程度的沖擊。
7月21日,中國移動公告稱,河南部分地區受極端天氣影響,樞紐機房斷電,目前無法正常辦理移動業務。
當天,河南本地一家名為海騰數據的服務商也在官網掛出數據中心受影響的通知。該公司稱,機房由柴油發電帶載,附近油站因道路積水導致無法供油到機房。考慮到存儲油量有限,市電恢復時間不確定,建議用戶緊急備份數據,或遠程關機以避免數據受損。
7月22日,《財經》記者致電多位海騰數據人士得知,其服務依舊尚未完全恢復。出問題的鄭州機房已有十余年歷史,存儲了當地政府、企業的數據。
此外,中國聯通、中國電信也不同程度受到了影響。部分互聯網公司在鄭州的服務器節點出現波動。老牌網絡原創文學平臺晉江文學在7月20日發布公告稱,主要網站業務所在的異地骨干機房在鄭州市,機房因為暴雨停電暫時靠備用發電機供電,部分線路會有不穩定現象。這意味著,短時間內,晉江文學的一部分服務和用戶將受到波及。
在中國企業在“上云”越來越普遍的情況下,云基礎設施的7×24小時運轉顯得愈發重要。公司規模越大,用戶越多,宕機造成的服務中斷將引發越嚴重的后果。鄭州暴雨前一周,B站、A站、豆瓣、晉江文學也曾因服務器故障服務長時間中斷。尤其是中國最大的視頻社區平臺B站的宕機,在全網引發轟動。
人們對云宕機的容忍度幾乎到了無法容忍的地步了。“水電煤”是生活必需品,云作為新一代的“水電煤”,也斷不起。數據中心作為云計算的基礎設施,和發電廠、自來水廠一樣舉足輕重。
自然災害不可抗拒,但除了緊急啟動保護措施,數據中心其實在災害發生前有一整套“容災備災”的機制。如何建立這套機制,正是這次暴雨留下的最大教訓。
01
被暴雨沖擊的“云”
此次鄭州暴雨來的又急又猛。
鄭州市氣象臺數據顯示,18日-20日三天降雨量617.1mm。鄭州常年平均全年降雨量為640.8mm。這意味著三天下了以往一年的量。
暴雨以及隨之而來的內澇直接導致電力設備崩潰了。鄭州市區一座110千伏變電站被迫停止運行,部分區域生產生活用電受到影響。通信運營商是重要的受影響對象。鄭州暴雨致多處通信網絡中斷。截至7月21日10時,鄭州移動基站停電3563個,基站退服3152個。這還不包括當地的聯通和電信。
如此暴雨下,云基礎設施也很難獨善自身。
事實上,和北京、東部沿海、南部沿海城市相比,位于中部地區的鄭州并非云廠商數據中心的集中所在地。阿里云、騰訊云、百度云均未在此建設數據中心,也沒有關鍵節點。
但鄭州本地有多家云服務代理商,包括景安網絡、海騰數據、億恩網絡、騰佑科技等公司。它們通常提供服務器托管、IDC加速等云計算周邊服務。它們在中原地區很重要,甚至被一些三方研究報告稱為本地IDC龍頭企業。
簡單理解,大型云廠商在全國重要區域會建設云計算的“大腦”和“骨架”,但在無法全面覆蓋的其他區域,這些代理商則是提供了“血管”或是“毛細血管”的服務。
值得注意的是,他們大多位于鄭州高新技術產業開發區,也就是這次暴雨核心影響區域之一。
有消息稱,暴雨發生后,海騰數據在其官網掛出了數據中心受到影響的通知。該公司建議用戶緊急備份數據,或遠程關機以避免數據受損。記者致電海騰數據相關人士得知,斷電之后,其柴油發電設備隨即上線,但供油量不足,無法覆蓋所有服務器。
受影響的還有景安網絡,《財經》記者致電景安網絡人士得知,其機房位于鄭州東部的高新技術產業開發區。20日下午16時,斷電導致服務器下線。截至7月21日下午18點,該公司已經通過柴油發電機緊急供電,但服務依舊不穩定。
前述的另一家鄭州本地IDC服務商情況類似。這家公司也在鄭州高新區。該公司有技術人士證實,其服務也因斷電受到沖擊。好在公司服務器都在二樓,沒有被泡,不會因暴雨而不可挽回。
一位頭部云廠商資深技術人士解釋說,服務器被浸泡會直接導致服務中斷,設備受損。嚴重情況下,IT設備可能直接報廢。其中的數據也會遭遇無可挽回的丟失。
該技術人士認為,通常情況下,云廠商對數據中心的選址、建造都有考慮,容災備災技術能力相對較強。數據中心用電會有一套三級保護機制,除了正常供電外還有柴油發電、蓄電池,可以保證全年不間斷供電。為避免暴雨、洪災的影響,服務器通常會放在二樓以上。
不過,這次鄭州暴雨強度太大,直接導致鄭州本地部分服務商三級保護失效了。
首先是城市大規模、長時間斷電。中國電網鄭州供電公司此前在面對媒體“停電搶修為何這么久”的疑問時回應,大水浸泡過后的受損電力設備都需要搶修后重新做實驗,保證安全的情況下才能送電。云服務商機房里的柴電設備、備用電源在長時間斷電的情況下,不敢給所有機房同時開足馬力。
另外,部分公司的柴電設備、備用電源均被特大暴雨“一鍋端了”。前述鄭州本地IDC服務商一位技術人士說,公司柴電設備在戶外、備用電源智能撐1小時-2小時。暴雨襲來,一樓被泡,發電機和電源都派不上用場,兩個大機房都受到了影響。
其中還包含少部分人為因素。一位資深技術人士告訴《財經》記者,一些嚴格的做法是,服務器、IDC機房會擺放規則,還會限制服務器的數量、擺放密度,以及備用電源的所在區域。目的就是避免出現“一鍋端”現象,但這樣成本會高很多。除了電信運營商的大型機房,大部分中小型企業會選擇低成本模式。
云計算服務中斷往往會連帶造成客戶損失。當問及客戶損失要如何處理時,景安網絡相關人士表示,目前已經多次接到相關反饋,公司會予以處理。上述鄭州本地IDC服務商技術人士則稱,暫時無法預估哪些客戶受到了何種程度的沖擊,也不知如何賠付。目前只能先考慮恢復服務。
《財經》記者查閱政府采購網、部分企業合同發現,關于服務器托管部分,往往一般會有一項“不可抗力條款”。不可抗力通常指地震、臺風、火災、水災、戰爭、罷工以及其他雙方共同認同的不能預見、不能避免并不能克服的客觀情況。
部分“不可抗力”引發的事故被視為甲乙雙方均不用承擔責任。但在部分合同中,不可抗力引發的事故有嚴格的分級指標,而且服務商需要承擔不同級別的責任。
7月22日,《財經》記者再次致電景安網絡和上述鄭州本地IDC服務商。對方回應稱電力供應暫時尚未恢復,目前柴電設備處于滿負載狀態。好在鄭州大雨已經暫停,預計22日內可恢復服務。
02
好的防御機制越來越重要
云計算中心的事故通常是天災人禍綜合因素的結果。
鄭州并非全國核心數據中心主要聚集地。此次暴雨雖然受到了一定沖擊,好在沖擊并未造成重大事故,尚在可接受范圍內。
歷史上,亞馬遜、三星,歐洲最大的云服務和網絡托管服務運營商OVH都遭遇過重大事故,甚至部分事故引發了不可挽回的嚴重后果。
2012年7月,美國東海岸大型雷電風暴導致中部各州斷電。亞馬遜一數據中心因此暫停服務。這導致Netflix、Instagram、Pinterest以及Tinder等多個美國國民級App癱瘓。
2014年4月,三星在韓國首爾郊區果川的機房發生重大火災。三星官網因此暫時癱瘓,部分手機用戶的服務也受到了影響。
2021年3月,歐洲云計算巨頭OVH位于法國斯特拉斯堡的機房發生嚴重火災。大火導致了五層高、占地 500 平方米的 SBG2 數據中心被燒毀。這直接引發1.5萬名客戶的資料可能受到影響,部分客戶數據完全丟失且無法恢復,其中還包括法國政府的部分數據。
這類重大安全事故在國內目前相對少見,但并不排除未來會出現。隨著國內上云速度進一步加快,如何避免重大安全事故,保證基礎設施穩定運行將是一個重要核心議題。
此前多家云廠商管理與技術人士曾對《財經》記者表示,數據中心安全保護不可能靠臨時抱佛腳解決,全靠形成一整套完整的選址、防護、備災以及容災機制。
其中一位騰訊基礎架構部人士說,“這套機制就像在一個可能會決堤的河流上提前修起大壩。我們應該靠機制減少抗洪搶險的現象。”
建立選址、備災、防護體系是為了讓數據中心有一套“安全網”。比如,頭部云廠商選址時會統籌考慮自然因素。數據中心通常會遠離地震、洪水等災害多發地。不能避免這個問題的話,也有解決措施。比如,在火災高發地,洪災高發地都有不同建設方案。
“不同數據中心的備災措施需要根據當地的自然環境各方面去統籌考慮。”阿里IDC事業部總經理高山淵說,設計備災措施時,方案如何執行、誰去執行只是基本考慮因素。備用設備的狀態切換時間、啟動成功率等細致因素都需要一一想到。這都是盡量提高備用設施的啟動概率。
容災則是形成了容錯機制。“多點多活”是其中的重要辦法。簡單說,就是讓數據長出“三頭六臂”,砍掉一個之后,依然可以正常運轉。或是讓一個面臨重大災害的人被瞬間傳送到其他安全場所。
阿里云數據中心能源與碳管理專家毛宏舉向《財經》記者解釋,保障數據中心和云服務的可靠性,不僅需要保障硬件,軟件層面也要有備份,“相當于云服務的容錯機制”。即使在最糟糕的情況下,一處數據中心出現故障,也可以把這部分負載切到其他地方。
一位百度云人士則透露,百度業務是多地域容災部署(華北/華東/華南三地域),數據在每個地域都有副本,同時還有離線遠程備份,能容忍單個地域出現的極端災害。
也有騰訊基礎架構部人士此前對《財經》記者稱,騰訊春晚保障團隊其實就是在反復練兵。前些年,各個頭部互聯網公司的“容災備災”在春晚紅包活動中得到了沉淀。
實戰才是檢驗各個云廠商“容災備災”最佳方式。不過,沒人會希望這一天真正到來。