|
引言
, Y' b( m* ]: A+ W$ s隨著生成式人工智能和大型語言模型(LLMs)的興起,數(shù)據(jù)中心面臨著功耗和散熱挑戰(zhàn)。本文探討了管理高密度計(jì)算環(huán)境的散熱技術(shù)和解決方案,重點(diǎn)關(guān)注從傳統(tǒng)空氣冷卻向更高效的液體冷卻方法的轉(zhuǎn)變[1]。
7 h5 a2 n- N9 X j- w: W
3 w* u/ N. i& M7 Z( q$ p/ r( V3 }人工智能革命及其對數(shù)據(jù)中心的影響
6 d( r* `$ S" x生成式人工智能和LLMs的出現(xiàn)開創(chuàng)了新的計(jì)算時代,其特點(diǎn)是海量數(shù)據(jù)集和密集的計(jì)算需求。現(xiàn)代LLMs,如GPT-3,由數(shù)十億個參數(shù)組成,需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。# d3 i) H7 [* [( C7 ?' ?
nbwsmx0dstb64058358813.png (312.38 KB, 下載次數(shù): 0)
下載附件
保存到相冊
nbwsmx0dstb64058358813.png
昨天 01:46 上傳
. m0 V7 [* D& V5 ?6 H圖1展示了LLMs的規(guī)模,顯示GPT-3的1750億個參數(shù)如何對應(yīng)于海量數(shù)據(jù)集和GPU計(jì)算需求。
% }" Y$ \3 o% Y. q. Z- |' w7 g* Z
這些模型需要異常強(qiáng)大的計(jì)算能力,通常使用數(shù)百或數(shù)千個GPU并行工作。這種計(jì)算密度導(dǎo)致數(shù)據(jù)中心的功耗和熱量產(chǎn)生顯著增加。
! |1 \ G% e8 ]. G0 f6 C3 x7 p( p; ~" Y
GPU計(jì)算的興起及其挑戰(zhàn)
/ e5 l4 S: W3 c" A9 x C向以人工智能為中心的計(jì)算轉(zhuǎn)變使GPU成為數(shù)據(jù)中心硬件的核心。與傳統(tǒng)CPU不同,GPU專為并行處理而設(shè)計(jì),非常適合人工智能工作負(fù)載。然而,這也帶來了一些挑戰(zhàn):% F$ u8 Q- M5 P5 G8 E$ F8 Z0 E% E
熱設(shè)計(jì)功率增加:現(xiàn)代GPU的功耗可超過1000瓦,產(chǎn)生大量熱量。更高密度:人工智能訓(xùn)練服務(wù)器每臺可消耗超過10千瓦,遠(yuǎn)超許多現(xiàn)有數(shù)據(jù)中心的容量。散熱限制:大多數(shù)數(shù)據(jù)中心設(shè)計(jì)用于一般計(jì)算和存儲,而非人工智能工作負(fù)載的極端熱密度。
. f# q. Z+ a" d" u3 V$ A, n$ M
% M4 N- f8 o& H4 v; X2 E
+ n- v# j- q' k- w o
3xybf4wnwje64058358913.png (214.91 KB, 下載次數(shù): 0)
下載附件
保存到相冊
3xybf4wnwje64058358913.png
昨天 01:46 上傳
. D- D1 Z8 t" H( x( |圖2顯示了數(shù)據(jù)中心由于GPU計(jì)算興起而面臨的挑戰(zhàn),包括功耗增加和熱密度提高。3 r9 f0 b- S# v. \. d- c- r
0 |5 F& q# u! J/ L, a傳統(tǒng)空氣冷卻:局限性和低效性
5 R% q3 Z( M( G. ^0 A歷史上,數(shù)據(jù)中心一直依賴空氣冷卻系統(tǒng)來管理熱量。雖然對于低密度計(jì)算環(huán)境有效,但空氣冷卻難以應(yīng)對現(xiàn)代人工智能硬件的熱輸出。
! X( M& c0 G* N" ?0 W; d
dzhh0w1yxoy64058359013.png (215.65 KB, 下載次數(shù): 0)
下載附件
保存到相冊
dzhh0w1yxoy64058359013.png
昨天 01:46 上傳
/ B& ?1 h- g& Q1 k
圖3描繪了數(shù)據(jù)中心的傳統(tǒng)空氣冷卻系統(tǒng),顯示了空氣流動和冷卻過程中涉及的各種組件。# K: [6 B1 a" W( ?& j6 v
7 O$ V# ?5 A, I0 ^! o% ~
空氣冷卻的局限性包括:
" N: _. L8 V! ~. R8 i3 K/ d$ B' p熱傳遞效率低:與液體相比,空氣的熱導(dǎo)率較低。能耗高:風(fēng)扇和CRAC單元消耗大量電力。空間限制:空氣冷卻需要移動大量空氣,限制了機(jī)架密度。
I' g) u$ M+ g" h$ t! j! p) G( M8 q) @- u6 z' v
這些因素導(dǎo)致較高的能源使用效率(PUE)比率,表明數(shù)據(jù)中心運(yùn)營效率較低。/ T' C1 N% |. w. J
+ F9 B4 }/ X$ O9 e# S. B! T5 Q
液體冷卻革命. u1 O) d5 R e
為應(yīng)對高密度人工智能計(jì)算帶來的挑戰(zhàn),業(yè)界正迅速轉(zhuǎn)向液體冷卻解決方案。與傳統(tǒng)空氣冷卻相比,液體冷卻具有多項(xiàng)優(yōu)勢:更好的熱傳遞:液體的熱導(dǎo)率遠(yuǎn)高于空氣。效率提高:液體冷卻可顯著減少冷卻功耗。更高密度:允許更緊湊的服務(wù)器設(shè)計(jì)和更高的機(jī)架密度。+ ]% \; V# V% B$ U9 e
[/ol]5 o% {2 f& G" x g% U- N
mu1jln0wkrl64058359113.png (148.34 KB, 下載次數(shù): 0)
下載附件
保存到相冊
mu1jln0wkrl64058359113.png
昨天 01:46 上傳
: f7 L n, Z& c9 J2 d& W* R圖4展示了數(shù)據(jù)中心的液體冷卻系統(tǒng),說明如何消除空氣冷卻系統(tǒng)中存在的大型耗能組件。
# ?# _: d) W6 B4 N. D1 Q2 d
i& R7 T; t. X液體冷卻解決方案類型
) |+ v; m* J/ W1. 直接液體冷卻(DLC)
0 K4 W, L- Q. I9 {5 P% @, SDLC涉及在產(chǎn)熱組件(如CPU和GPU)上直接安裝冷板。液體冷卻劑流經(jīng)這些冷板,有效地從熱源處移除熱量。! }2 m8 Q) {2 g$ Y& H: j
vecfzu0za3564058359214.png (320.18 KB, 下載次數(shù): 0)
下載附件
保存到相冊
vecfzu0za3564058359214.png
昨天 01:46 上傳
' e" w4 h% X' M" r6 B圖5概述了直接液體冷卻系統(tǒng),顯示了關(guān)鍵組件,包括冷板、冷卻分配單元(CDU)和冷卻塔。
3 S, ?* ]) J, X
; w; E, d' \; L4 J" kDLC的優(yōu)勢:
- r c; M( C, x9 e/ c! V5 Y! M服務(wù)器冷卻功耗最高可減少92%整體數(shù)據(jù)中心電力成本最高可減少40%服務(wù)器噪音最高可減少55%
9 W5 z; p/ z4 W+ X" R7 T& o. l. j3 R: u) ]
2. 后門熱交換器(RDHx)
+ ^( P( D: B! R8 g( {' zRDHx是一種可在現(xiàn)有空氣冷卻環(huán)境中實(shí)施的混合解決方案。它涉及在服務(wù)器機(jī)架背面安裝冷卻面板,以冷卻熱排氣。
m- \! f8 _" s6 S8 ^
sdx42ikihyk64058359314.png (275.81 KB, 下載次數(shù): 0)
下載附件
保存到相冊
sdx42ikihyk64058359314.png
昨天 01:46 上傳
6 Q' B: _) s$ [1 U6 l4 m" L圖6展示了后門熱交換器系統(tǒng),說明它如何與現(xiàn)有空氣冷卻服務(wù)器機(jī)架集成以提高冷卻效率。
# r. m, F: Q3 E4 q, V2 p$ G# t) j+ j4 h
3. 浸沒式液體冷卻(ILC)% q; Y2 u6 P- T( F: Z# \9 o
在ILC中,整個服務(wù)器浸沒在介電冷卻液中,為所有組件提供全面冷卻。( w, l9 B4 t7 S6 [8 m6 P0 H
tjsuortumwp64058359414.png (221.67 KB, 下載次數(shù): 0)
下載附件
保存到相冊
tjsuortumwp64058359414.png
昨天 01:46 上傳
4 H: Y" e7 z3 T% H
圖7展示了浸沒式液體冷卻系統(tǒng),描述了如何將服務(wù)器完全浸沒在介電液體中以實(shí)現(xiàn)最大熱量移除。
( J0 m2 R" F3 ^' x0 d7 L. q+ J# \- Q, x& M: B) _% M
實(shí)施液體冷卻:考慮因素和益處# h1 M, C! j% i, A2 A/ K9 T m
在轉(zhuǎn)向液體冷卻時,數(shù)據(jù)中心運(yùn)營商應(yīng)考慮:基礎(chǔ)設(shè)施變更:液體冷卻需要不同的管道和熱交換系統(tǒng)。組件兼容性:確保所有服務(wù)器組件與所選冷卻方法兼容。維護(hù)程序:液體冷卻系統(tǒng)需要不同的維護(hù)方法。1 _ r9 K" Q5 v8 f& o2 ^
[/ol]
+ H& {" v, @- L9 N6 U實(shí)施液體冷卻的益處包括:
* P0 V0 e2 n3 n1 U; h- R大幅減少冷卻成本提高計(jì)算密度提高整體數(shù)據(jù)中心效率潛在的熱量在其他設(shè)施中再利用6 w1 J; V# G& u$ I
0 ^) i, I+ x( j c# i* ^1 m
wtj1wxpomay64058359515.png (220.62 KB, 下載次數(shù): 0)
下載附件
保存到相冊
wtj1wxpomay64058359515.png
昨天 01:46 上傳
' W# b; F# {/ j/ f U B圖8比較了直接液體冷卻和空氣冷卻,突出顯示了在資本支出和運(yùn)營支出方面的潛在成本優(yōu)勢。9 j$ Q0 s+ B% G+ Q4 y" Y
% _ v9 Y8 r5 Q/ N: x8 w數(shù)據(jù)中心冷卻的未來趨勢9 j# _& ~9 O; R3 H, T
隨著人工智能繼續(xù)發(fā)展,我們可以預(yù)期冷卻技術(shù)將進(jìn)一步發(fā)展:
- D$ g$ \5 }$ X/ j7 O% W0 J液體冷卻的廣泛采用冷卻劑配方的改進(jìn)以提高熱傳遞人工智能集成以優(yōu)化冷卻管理更加關(guān)注可持續(xù)性和熱量再利用) _5 D+ P0 L* G4 K* x3 v9 C
. a8 v) [9 n& r9 d7 y4 ?
mnge2nwrm3l64058359615.png (420.41 KB, 下載次數(shù): 0)
下載附件
保存到相冊
mnge2nwrm3l64058359615.png
昨天 01:46 上傳
' h: B7 B0 C. \" h" Z5 E) W圖9展示了未來人工智能和冷卻趨勢的"水晶球"視圖,包括人工智能推理的擴(kuò)展、特定領(lǐng)域的LLMs,以及人工通用智能(AGI)的潛力。
6 M: s0 {% {% u' g5 N; j
) s$ t9 B# p( g0 ~0 v結(jié)論
2 x/ W; k; D: F8 i- o人工智能革命已將數(shù)據(jù)中心熱管理推向極限,需要從傳統(tǒng)空氣冷卻轉(zhuǎn)向更高效的液體冷卻解決方案。隨著行業(yè)繼續(xù)發(fā)展,采用這些新的冷卻技術(shù)對支持下一代人工智能和高性能計(jì)算工作負(fù)載將變得越來越重要。通過了解和實(shí)施先進(jìn)的冷卻技術(shù),數(shù)據(jù)中心運(yùn)營商可以確保準(zhǔn)備好應(yīng)對未來的計(jì)算需求,同時提高效率并減少環(huán)境影響。
$ m/ M- C/ d" H" ]
$ X L/ t2 j* Q: I* Z參考文獻(xiàn)
6 \7 O! s7 d( z5 ]9 B[1] T. Garvens, "Thermal Techniques for Data Center Compute Density," Supermicro, Aug. 23, 2024.2 L4 K. O/ N. `* v" }8 Q. f: ^
. S. m& N! s" T- I/ R/ Q& h- END -
" i+ t) ^; s+ q2 X0 ~* m+ [' y5 X- c# ?1 ^; Y) x- r. A8 T
軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
4 \7 [0 Z% G8 `: G點(diǎn)擊左下角"閱讀原文"馬上申請
. \' g& }2 C6 L+ ]! t
! S9 W8 }6 m) z4 K( d) r8 t歡迎轉(zhuǎn)載
; o$ A7 D# Z; v! y: G! `7 [2 r. O v+ ]1 h/ ^9 Y% z1 _- z* e
轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
& T9 E( C, z* m% q; P8 V' T8 T; ^
/ F, p" f @. y) o y( k- f+ f2 Y, }( T& I$ i8 X; q7 ~6 A8 V$ S! T
bum4amoaid464058359715.gif (16.04 KB, 下載次數(shù): 0)
下載附件
保存到相冊
bum4amoaid464058359715.gif
昨天 01:46 上傳
?6 o F' y5 P# `# D" n
8 h2 ~3 t7 L7 J. J( P, Q! ]
關(guān)注我們
! {+ {4 A8 F2 c6 Z. u# E) U. M$ T. J8 Y; ]1 W& O
( U$ N5 X1 e1 `; Z: P7 j
z30vjcdrbqk64058359815.png (31.33 KB, 下載次數(shù): 0)
下載附件
保存到相冊
z30vjcdrbqk64058359815.png
昨天 01:46 上傳
, @) `) v% h$ j: d6 D' y | * v: ?7 T7 ?$ j# u) i* f
uvi5zchxmyn64058359915.png (82.79 KB, 下載次數(shù): 0)
下載附件
保存到相冊
uvi5zchxmyn64058359915.png
昨天 01:46 上傳
* g3 C4 h8 s% E | 0 k/ J( d$ a: H9 i; ?6 Z6 |
xgbej01bkut64058360015.png (21.52 KB, 下載次數(shù): 0)
下載附件
保存到相冊
xgbej01bkut64058360015.png
昨天 01:46 上傳
$ M' { X3 M0 a7 D
|
0 i' O! f& G: p# ] o! u& K- L: R0 |& D+ V" [$ m* z, @$ W3 C
7 J0 ^' L7 g. D7 S
I- I3 z7 i7 W+ I2 A( ~: q- _
關(guān)于我們:
# V* o+ b- S% p# r7 A2 p深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。4 L" y+ y+ _9 e, {+ {3 R7 t3 p @
* |3 _6 h6 c" c9 W2 s7 f$ Nhttp://www.latitudeda.com/9 A! H1 |* h: v- a' _. s
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|