一、序言
如果列舉目前數據中心領域有哪項技術是又冷又熱的,液體冷卻肯定榜上有名。所謂冷是指液冷的散熱效率高,對于計算功率密度大的設施有良好的降溫作用;所謂熱則是指液冷的發展勢頭火熱,在業內的認可度和關注度越來越高。上世紀60年代開始,液冷已經被用在大型計算機上,但因為熱負荷不高的情況下風冷成本更低也更安全,液冷產業并未得到太大發展。隨著移動互聯網的發展,數據中心需應對的業務復雜度日益提高,功率密度快速增長,數據中心因此變得越來越“熱”,在綠色高效的發展壓力下,液冷技術強勢回歸。
二、需求分析
1. 5G
如今互聯網已經成為第四次工業革命的核心推動力,伴隨著此次工業革命的發展,人類生活的方方面面都在發生改變,尤其表現在數據流量需求持續猛增、網絡負荷大幅提高。5G是全世界期待的解決網絡通信問題、打開萬物互聯大門的鑰匙,作為支撐5G的重要基礎設施之一,基站承擔著處理和傳輸海量數據的重任,此過程中會產生大量的廢熱,據統計,基站本身占用了通信網絡傳輸總能耗的80%。隨著5G的深化和應用場景的落地,這些基站散熱問題或可以依靠液體冷卻來解決。目前,諾基亞已在芬蘭的一棟大樓部署了全球首個液冷基站系統,并將回收的基站廢熱用于樓內供暖,有效降低了能源消耗。
2. 邊緣計算
數據中心建設有一條經驗,一個10.5kW的服務器機架每分鐘需要1200CFM的冷卻空氣,這些空氣每分鐘流量足以填滿一個11平方米、樓高3米的機房空間,單是移動這些空氣就需要大量的能量。液體冷卻系統可以比風冷系統提供更高的冷卻性能,但卻不需像風冷那樣耗費過多空間,它對機房的體積要求要小得多。換言之,優化設計的液體冷卻解決方案將使數據中心能夠在更小的空間內提供更多的計算能力。邊緣數據中心為了靠近業務端通常設計得較小,并且為了適應業務需求而需容納更多的高密度硬件設施,液冷可以滿足邊緣數據中心所期望的小空間和高性能特征,有能力成為未來邊緣數據中心的理想制冷解決方案。
3. 人工智能
從通用的CPU到GPU(圖形處理單元)、FPGA(現場可編程門陣列)和ASIC(專用集成電路),新一代AI處理器的出現使得強大的機器學習分析程序能順利運行,為現代AI提供了動力支撐。然而,人工智能場景的計算量和迭代需求都非常高,服務器等設備通常會采用集群部署AI加速器的方式提升算力,因此,單臺服務器的功率越來越高,數據中心基礎設施的冷卻能力越來越緊張。以谷歌為例,其專為人工智能業務設計的TPU pod計算機,升級一代(從2.0到3.0)功耗增加了8倍,為此不得不在數據中心中使用液冷散熱。未來,隨著越來越多的企業和組織開始運用機器學習提供AI解決方案即服務,設備散熱的需求會更快驅動液冷的實施和落地。
三、液冷技術分析
液冷技術是通過液體循環介質將大部分熱量帶走,單臺服務器需求風量降低,機房整體送風需求也隨之降低,可以達到削減散熱系統消耗的效果,以此促進數據中心的綠色化進程。目前來看數據中心液冷主要有間接液冷和直接液冷兩種主流技術路線,間接液冷以冷板式為主,技術成熟度較高;直接液冷以浸沒式為主,散熱效率較高。直接液冷同時也涌現出噴淋式等新形態,目前尚處于發展初期,公開展示的研究和實踐成果較少,具有一定發展潛力。
1. 間接液冷——冷板式
冷板式液冷對發熱器件的改造和適配要求較低,技術成熟度較高,應用進展最快。冷板式液冷系統由換熱冷板、分液單元、熱交換單元、循環管路和冷卻液組成,它是通過換熱冷板(通常是銅、鋁等高導熱金屬構成的封閉腔體)將發熱器件的熱量傳遞給封閉在循環管路中的冷卻液體進行換熱的方式,按照管路的連接方式不同可分為串聯式和并聯式。串聯方式中,冷卻液體先進入一個冷板腔體散熱后再繼續流入下一個冷板腔體,管路連接簡單但不同部分的CPU會存在溫差;并聯式方式中,冷卻液在進入不同腔體前會先進行分流,然后再分別進入腔體內,散熱更高效但管路系統更復雜。由于冷板式液冷中發熱器件無需直接與液體接觸,所以對發熱器件本身的改造和適配要求較小,因此,冷板式液冷的成熟度相對較高。目前,百度、騰訊、美團等互聯網企業均開始對冷板式液冷進行技術研究和試驗驗證,在冷板式液冷產業內形成了強勁的帶動作用。
2. 直接液冷——浸沒式
浸沒式散熱優勢最明顯,能極大提升能源使用效率,較適合新建數據中心。浸沒式液冷是一種以液體作為傳熱介質,將發熱器件完全浸沒在液體中,發熱器件與液體直接接觸并進行熱交換的冷卻技術。按照熱交換過程中冷卻液是否存在相態變化,可分為單相液冷和相變液冷兩類。區別在于作為傳熱介質的液體在熱量傳遞過程中是只發生溫度變化,還是存在相態轉變。浸沒式液冷系統一般分為浸沒腔體子系統、冷卻子系統、室外冷源系統、監控系統四部分。由于系統架構特殊,冷卻液可以與發熱器件直接接觸,所以浸沒式的散熱效率較高,可支持更高功率密度的IT部署,能極大提升能源使用效率(PUE)。雖然制冷效果較好,但由于需要直接將冷卻液和發熱器件接觸,數據中心設備改造的動作更大,因此浸沒式更適合新建數據中心。目前,阿里巴巴已經在其北京冬奧云數據中心進行浸沒式液冷的規?;渴?,開啟了浸沒式液冷的正式商用。
四、變化與影響
革新數據中心的整體架構。從避免液體接觸機房設備到主動引入液體和使用液體,液冷技術的使用讓數據中心的基礎架構發生了變化。從地板到天花板,從線路到管路,從機柜外部結構到內部部署,液冷將會帶來完全不一樣架構的數據中心。
革命性地改變數據中心散熱方式。以往數據中心散熱以風冷為主,散熱消耗要占據大部分的能源消耗。液冷逐漸替代了風冷散熱后,散熱效率顯著提升。應用證明,大多數地區使用液冷技術后可獲得機房PUE<1.1的效果。
重構IT設備及關鍵部件的設計和部署。以服務器為主的IT設備,包括CPU、GPU、存儲、網卡等關鍵部件,都會為了更好地散熱(例如,與風冷相比部分CPU滿載工作時的核溫可降低20℃)開始直接或間接接觸液體,為了與液冷系統兼容,它們的設計和部署勢必會做出改變。
顛覆數據中心的監控和運維模式。液冷技術進入機房后,數據中心的監測和控制系統會重點圍繞它進行,如部署漏液監測、溫度監測、壓力監測等。除此之外,數據中心的運營和維護思路也會改變,液體、管路、接口等液冷配套設施均會給運維帶來新要求。
完善能效評價指標和方法。目前評價數據中心能源效率的主要指標是PUE,它是數據中心總能耗與IT設備能耗的比值?,F階段數據中心液冷部署還處于過渡階段,即同一數據中心可能同時使用風冷和液冷系統,為了充分了解兩部分系統的性能,需要分開度量能源效率,因此,PUE的度量指標可以進一步完善。
五、展望
在數據中心中,受限于機房設計和配套設施,當單機架功率密度接近20kW時,風冷系統就已達到其經濟有效的制冷極限。液體冷卻技術是一個開放、靈活的制冷解決方案,它支持技術計算、網格部署和數據分析等工作負載,可以有效應對高性能計算(HPC)、大規模云數據中心、邊緣計算、人工智能等高功率密度場景,對于減少數據中心能源消耗、降低TCO有非常明顯的優勢,具有廣闊的市場前景。
然而,液冷的優勢和潛力并未形成很強的商業帶動效應,從世界互聯網巨頭們釋放出來的信號來看,它們對液冷系統和零配件產品的規范化和標準化還有很大顧慮,不愿面對設備采購和后期維護的麻煩。因此,在加強液冷技術和產品創新的同時,還應該重點關注標準化和適配性問題。
文章來源:中國信通院CAICT
如果列舉目前數據中心領域有哪項技術是又冷又熱的,液體冷卻肯定榜上有名。所謂冷是指液冷的散熱效率高,對于計算功率密度大的設施有良好的降溫作用;所謂熱則是指液冷的發展勢頭火熱,在業內的認可度和關注度越來越高。上世紀60年代開始,液冷已經被用在大型計算機上,但因為熱負荷不高的情況下風冷成本更低也更安全,液冷產業并未得到太大發展。隨著移動互聯網的發展,數據中心需應對的業務復雜度日益提高,功率密度快速增長,數據中心因此變得越來越“熱”,在綠色高效的發展壓力下,液冷技術強勢回歸。
二、需求分析
1. 5G
如今互聯網已經成為第四次工業革命的核心推動力,伴隨著此次工業革命的發展,人類生活的方方面面都在發生改變,尤其表現在數據流量需求持續猛增、網絡負荷大幅提高。5G是全世界期待的解決網絡通信問題、打開萬物互聯大門的鑰匙,作為支撐5G的重要基礎設施之一,基站承擔著處理和傳輸海量數據的重任,此過程中會產生大量的廢熱,據統計,基站本身占用了通信網絡傳輸總能耗的80%。隨著5G的深化和應用場景的落地,這些基站散熱問題或可以依靠液體冷卻來解決。目前,諾基亞已在芬蘭的一棟大樓部署了全球首個液冷基站系統,并將回收的基站廢熱用于樓內供暖,有效降低了能源消耗。
2. 邊緣計算
數據中心建設有一條經驗,一個10.5kW的服務器機架每分鐘需要1200CFM的冷卻空氣,這些空氣每分鐘流量足以填滿一個11平方米、樓高3米的機房空間,單是移動這些空氣就需要大量的能量。液體冷卻系統可以比風冷系統提供更高的冷卻性能,但卻不需像風冷那樣耗費過多空間,它對機房的體積要求要小得多。換言之,優化設計的液體冷卻解決方案將使數據中心能夠在更小的空間內提供更多的計算能力。邊緣數據中心為了靠近業務端通常設計得較小,并且為了適應業務需求而需容納更多的高密度硬件設施,液冷可以滿足邊緣數據中心所期望的小空間和高性能特征,有能力成為未來邊緣數據中心的理想制冷解決方案。
3. 人工智能
從通用的CPU到GPU(圖形處理單元)、FPGA(現場可編程門陣列)和ASIC(專用集成電路),新一代AI處理器的出現使得強大的機器學習分析程序能順利運行,為現代AI提供了動力支撐。然而,人工智能場景的計算量和迭代需求都非常高,服務器等設備通常會采用集群部署AI加速器的方式提升算力,因此,單臺服務器的功率越來越高,數據中心基礎設施的冷卻能力越來越緊張。以谷歌為例,其專為人工智能業務設計的TPU pod計算機,升級一代(從2.0到3.0)功耗增加了8倍,為此不得不在數據中心中使用液冷散熱。未來,隨著越來越多的企業和組織開始運用機器學習提供AI解決方案即服務,設備散熱的需求會更快驅動液冷的實施和落地。
三、液冷技術分析
液冷技術是通過液體循環介質將大部分熱量帶走,單臺服務器需求風量降低,機房整體送風需求也隨之降低,可以達到削減散熱系統消耗的效果,以此促進數據中心的綠色化進程。目前來看數據中心液冷主要有間接液冷和直接液冷兩種主流技術路線,間接液冷以冷板式為主,技術成熟度較高;直接液冷以浸沒式為主,散熱效率較高。直接液冷同時也涌現出噴淋式等新形態,目前尚處于發展初期,公開展示的研究和實踐成果較少,具有一定發展潛力。
1. 間接液冷——冷板式
冷板式液冷對發熱器件的改造和適配要求較低,技術成熟度較高,應用進展最快。冷板式液冷系統由換熱冷板、分液單元、熱交換單元、循環管路和冷卻液組成,它是通過換熱冷板(通常是銅、鋁等高導熱金屬構成的封閉腔體)將發熱器件的熱量傳遞給封閉在循環管路中的冷卻液體進行換熱的方式,按照管路的連接方式不同可分為串聯式和并聯式。串聯方式中,冷卻液體先進入一個冷板腔體散熱后再繼續流入下一個冷板腔體,管路連接簡單但不同部分的CPU會存在溫差;并聯式方式中,冷卻液在進入不同腔體前會先進行分流,然后再分別進入腔體內,散熱更高效但管路系統更復雜。由于冷板式液冷中發熱器件無需直接與液體接觸,所以對發熱器件本身的改造和適配要求較小,因此,冷板式液冷的成熟度相對較高。目前,百度、騰訊、美團等互聯網企業均開始對冷板式液冷進行技術研究和試驗驗證,在冷板式液冷產業內形成了強勁的帶動作用。
2. 直接液冷——浸沒式
浸沒式散熱優勢最明顯,能極大提升能源使用效率,較適合新建數據中心。浸沒式液冷是一種以液體作為傳熱介質,將發熱器件完全浸沒在液體中,發熱器件與液體直接接觸并進行熱交換的冷卻技術。按照熱交換過程中冷卻液是否存在相態變化,可分為單相液冷和相變液冷兩類。區別在于作為傳熱介質的液體在熱量傳遞過程中是只發生溫度變化,還是存在相態轉變。浸沒式液冷系統一般分為浸沒腔體子系統、冷卻子系統、室外冷源系統、監控系統四部分。由于系統架構特殊,冷卻液可以與發熱器件直接接觸,所以浸沒式的散熱效率較高,可支持更高功率密度的IT部署,能極大提升能源使用效率(PUE)。雖然制冷效果較好,但由于需要直接將冷卻液和發熱器件接觸,數據中心設備改造的動作更大,因此浸沒式更適合新建數據中心。目前,阿里巴巴已經在其北京冬奧云數據中心進行浸沒式液冷的規?;渴?,開啟了浸沒式液冷的正式商用。
四、變化與影響
革新數據中心的整體架構。從避免液體接觸機房設備到主動引入液體和使用液體,液冷技術的使用讓數據中心的基礎架構發生了變化。從地板到天花板,從線路到管路,從機柜外部結構到內部部署,液冷將會帶來完全不一樣架構的數據中心。
革命性地改變數據中心散熱方式。以往數據中心散熱以風冷為主,散熱消耗要占據大部分的能源消耗。液冷逐漸替代了風冷散熱后,散熱效率顯著提升。應用證明,大多數地區使用液冷技術后可獲得機房PUE<1.1的效果。
重構IT設備及關鍵部件的設計和部署。以服務器為主的IT設備,包括CPU、GPU、存儲、網卡等關鍵部件,都會為了更好地散熱(例如,與風冷相比部分CPU滿載工作時的核溫可降低20℃)開始直接或間接接觸液體,為了與液冷系統兼容,它們的設計和部署勢必會做出改變。
顛覆數據中心的監控和運維模式。液冷技術進入機房后,數據中心的監測和控制系統會重點圍繞它進行,如部署漏液監測、溫度監測、壓力監測等。除此之外,數據中心的運營和維護思路也會改變,液體、管路、接口等液冷配套設施均會給運維帶來新要求。
完善能效評價指標和方法。目前評價數據中心能源效率的主要指標是PUE,它是數據中心總能耗與IT設備能耗的比值?,F階段數據中心液冷部署還處于過渡階段,即同一數據中心可能同時使用風冷和液冷系統,為了充分了解兩部分系統的性能,需要分開度量能源效率,因此,PUE的度量指標可以進一步完善。
五、展望
在數據中心中,受限于機房設計和配套設施,當單機架功率密度接近20kW時,風冷系統就已達到其經濟有效的制冷極限。液體冷卻技術是一個開放、靈活的制冷解決方案,它支持技術計算、網格部署和數據分析等工作負載,可以有效應對高性能計算(HPC)、大規模云數據中心、邊緣計算、人工智能等高功率密度場景,對于減少數據中心能源消耗、降低TCO有非常明顯的優勢,具有廣闊的市場前景。
然而,液冷的優勢和潛力并未形成很強的商業帶動效應,從世界互聯網巨頭們釋放出來的信號來看,它們對液冷系統和零配件產品的規范化和標準化還有很大顧慮,不愿面對設備采購和后期維護的麻煩。因此,在加強液冷技術和產品創新的同時,還應該重點關注標準化和適配性問題。
文章來源:中國信通院CAICT