電子產(chǎn)業(yè)一站式賦能平臺

PCB聯(lián)盟網(wǎng)

搜索
查看: 23|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 人工智能時代數(shù)據(jù)中心高密度計(jì)算的散熱技術(shù)

[復(fù)制鏈接]

451

主題

451

帖子

3428

積分

四級會員

Rank: 4

積分
3428
跳轉(zhuǎn)到指定樓層
樓主
發(fā)表于 前天 08:00 | 只看該作者 |只看大圖 回帖獎勵 |倒序?yàn)g覽 |閱讀模式
引言
, Y' b( m* ]: A+ W$ s隨著生成式人工智能和大型語言模型(LLMs)的興起,數(shù)據(jù)中心面臨著功耗和散熱挑戰(zhàn)。本文探討了管理高密度計(jì)算環(huán)境的散熱技術(shù)和解決方案,重點(diǎn)關(guān)注從傳統(tǒng)空氣冷卻向更高效的液體冷卻方法的轉(zhuǎn)變[1]。
7 h5 a2 n- N9 X  j- w: W
3 w* u/ N. i& M7 Z( q$ p/ r( V3 }人工智能革命及其對數(shù)據(jù)中心的影響
6 d( r* `$ S" x生成式人工智能和LLMs的出現(xiàn)開創(chuàng)了新的計(jì)算時代,其特點(diǎn)是海量數(shù)據(jù)集和密集的計(jì)算需求。現(xiàn)代LLMs,如GPT-3,由數(shù)十億個參數(shù)組成,需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。# d3 i) H7 [* [( C7 ?' ?

. m0 V7 [* D& V5 ?6 H圖1展示了LLMs的規(guī)模,顯示GPT-3的1750億個參數(shù)如何對應(yīng)于海量數(shù)據(jù)集和GPU計(jì)算需求。
% }" Y$ \3 o% Y. q. Z- |' w7 g* Z
這些模型需要異常強(qiáng)大的計(jì)算能力,通常使用數(shù)百或數(shù)千個GPU并行工作。這種計(jì)算密度導(dǎo)致數(shù)據(jù)中心的功耗和熱量產(chǎn)生顯著增加。
! |1 \  G% e8 ]. G0 f6 C3 x7 p( p; ~" Y
GPU計(jì)算的興起及其挑戰(zhàn)
/ e5 l4 S: W3 c" A9 x  C向以人工智能為中心的計(jì)算轉(zhuǎn)變使GPU成為數(shù)據(jù)中心硬件的核心。與傳統(tǒng)CPU不同,GPU專為并行處理而設(shè)計(jì),非常適合人工智能工作負(fù)載。然而,這也帶來了一些挑戰(zhàn):% F$ u8 Q- M5 P5 G8 E$ F8 Z0 E% E
  • 熱設(shè)計(jì)功率增加:現(xiàn)代GPU的功耗可超過1000瓦,產(chǎn)生大量熱量。
  • 更高密度:人工智能訓(xùn)練服務(wù)器每臺可消耗超過10千瓦,遠(yuǎn)超許多現(xiàn)有數(shù)據(jù)中心的容量。
  • 散熱限制:大多數(shù)數(shù)據(jù)中心設(shè)計(jì)用于一般計(jì)算和存儲,而非人工智能工作負(fù)載的極端熱密度。
    . f# q. Z+ a" d" u3 V$ A, n$ M

    % M4 N- f8 o& H4 v; X2 E
    + n- v# j- q' k- w  o
    . D- D1 Z8 t" H( x( |圖2顯示了數(shù)據(jù)中心由于GPU計(jì)算興起而面臨的挑戰(zhàn),包括功耗增加和熱密度提高。3 r9 f0 b- S# v. \. d- c- r

    0 |5 F& q# u! J/ L, a傳統(tǒng)空氣冷卻:局限性和低效性
    5 R% q3 Z( M( G. ^0 A歷史上,數(shù)據(jù)中心一直依賴空氣冷卻系統(tǒng)來管理熱量。雖然對于低密度計(jì)算環(huán)境有效,但空氣冷卻難以應(yīng)對現(xiàn)代人工智能硬件的熱輸出。
    ! X( M& c0 G* N" ?0 W; d / B& ?1 h- g& Q1 k
    圖3描繪了數(shù)據(jù)中心的傳統(tǒng)空氣冷卻系統(tǒng),顯示了空氣流動和冷卻過程中涉及的各種組件。# K: [6 B1 a" W( ?& j6 v
    7 O$ V# ?5 A, I0 ^! o% ~
    空氣冷卻的局限性包括:
    " N: _. L8 V! ~. R8 i3 K/ d$ B' p
  • 熱傳遞效率低:與液體相比,空氣的熱導(dǎo)率較低。
  • 能耗高:風(fēng)扇和CRAC單元消耗大量電力。
  • 空間限制:空氣冷卻需要移動大量空氣,限制了機(jī)架密度。
      I' g) u$ M+ g" h$ t! j! p
    ) G( M8 q) @- u6 z' v
    這些因素導(dǎo)致較高的能源使用效率(PUE)比率,表明數(shù)據(jù)中心運(yùn)營效率較低。/ T' C1 N% |. w. J
    + F9 B4 }/ X$ O9 e# S. B! T5 Q
    液體冷卻革命. u1 O) d5 R  e
    為應(yīng)對高密度人工智能計(jì)算帶來的挑戰(zhàn),業(yè)界正迅速轉(zhuǎn)向液體冷卻解決方案。與傳統(tǒng)空氣冷卻相比,液體冷卻具有多項(xiàng)優(yōu)勢:
  • 更好的熱傳遞:液體的熱導(dǎo)率遠(yuǎn)高于空氣。
  • 效率提高:液體冷卻可顯著減少冷卻功耗。
  • 更高密度:允許更緊湊的服務(wù)器設(shè)計(jì)和更高的機(jī)架密度。+ ]% \; V# V% B$ U9 e
    [/ol]5 o% {2 f& G" x  g% U- N

    : f7 L  n, Z& c9 J2 d& W* R圖4展示了數(shù)據(jù)中心的液體冷卻系統(tǒng),說明如何消除空氣冷卻系統(tǒng)中存在的大型耗能組件。
    # ?# _: d) W6 B4 N. D1 Q2 d
      i& R7 T; t. X液體冷卻解決方案類型
    ) |+ v; m* J/ W1. 直接液體冷卻(DLC)
    0 K4 W, L- Q. I9 {5 P% @, SDLC涉及在產(chǎn)熱組件(如CPU和GPU)上直接安裝冷板。液體冷卻劑流經(jīng)這些冷板,有效地從熱源處移除熱量。! }2 m8 Q) {2 g$ Y& H: j

    ' e" w4 h% X' M" r6 B圖5概述了直接液體冷卻系統(tǒng),顯示了關(guān)鍵組件,包括冷板、冷卻分配單元(CDU)和冷卻塔。
    3 S, ?* ]) J, X
    ; w; E, d' \; L4 J" kDLC的優(yōu)勢:
    - r  c; M( C, x9 e/ c! V5 Y! M
  • 服務(wù)器冷卻功耗最高可減少92%
  • 整體數(shù)據(jù)中心電力成本最高可減少40%
  • 服務(wù)器噪音最高可減少55%
    9 W5 z; p/ z4 W+ X" R
    7 T& o. l. j3 R: u) ]
    2. 后門熱交換器(RDHx)
    + ^( P( D: B! R8 g( {' zRDHx是一種可在現(xiàn)有空氣冷卻環(huán)境中實(shí)施的混合解決方案。它涉及在服務(wù)器機(jī)架背面安裝冷卻面板,以冷卻熱排氣。
      m- \! f8 _" s6 S8 ^
    6 Q' B: _) s$ [1 U6 l4 m" L圖6展示了后門熱交換器系統(tǒng),說明它如何與現(xiàn)有空氣冷卻服務(wù)器機(jī)架集成以提高冷卻效率。
    # r. m, F: Q3 E4 q, V2 p$ G# t) j+ j4 h
    3. 浸沒式液體冷卻(ILC)% q; Y2 u6 P- T( F: Z# \9 o
    在ILC中,整個服務(wù)器浸沒在介電冷卻液中,為所有組件提供全面冷卻。( w, l9 B4 t7 S6 [8 m6 P0 H
    4 H: Y" e7 z3 T% H
    圖7展示了浸沒式液體冷卻系統(tǒng),描述了如何將服務(wù)器完全浸沒在介電液體中以實(shí)現(xiàn)最大熱量移除。
    ( J0 m2 R" F3 ^' x0 d7 L. q+ J# \- Q, x& M: B) _% M
    實(shí)施液體冷卻:考慮因素和益處# h1 M, C! j% i, A2 A/ K9 T  m
    在轉(zhuǎn)向液體冷卻時,數(shù)據(jù)中心運(yùn)營商應(yīng)考慮:
  • 基礎(chǔ)設(shè)施變更:液體冷卻需要不同的管道和熱交換系統(tǒng)。
  • 組件兼容性:確保所有服務(wù)器組件與所選冷卻方法兼容。
  • 維護(hù)程序:液體冷卻系統(tǒng)需要不同的維護(hù)方法。1 _  r9 K" Q5 v8 f& o2 ^
    [/ol]
    + H& {" v, @- L9 N6 U實(shí)施液體冷卻的益處包括:
    * P0 V0 e2 n3 n1 U; h- R
  • 大幅減少冷卻成本
  • 提高計(jì)算密度
  • 提高整體數(shù)據(jù)中心效率
  • 潛在的熱量在其他設(shè)施中再利用6 w1 J; V# G& u$ I
    0 ^) i, I+ x( j  c# i* ^1 m

    ' W# b; F# {/ j/ f  U  B圖8比較了直接液體冷卻和空氣冷卻,突出顯示了在資本支出和運(yùn)營支出方面的潛在成本優(yōu)勢。9 j$ Q0 s+ B% G+ Q4 y" Y

    % _  v9 Y8 r5 Q/ N: x8 w數(shù)據(jù)中心冷卻的未來趨勢9 j# _& ~9 O; R3 H, T
    隨著人工智能繼續(xù)發(fā)展,我們可以預(yù)期冷卻技術(shù)將進(jìn)一步發(fā)展:
    - D$ g$ \5 }$ X/ j7 O% W0 J
  • 液體冷卻的廣泛采用
  • 冷卻劑配方的改進(jìn)以提高熱傳遞
  • 人工智能集成以優(yōu)化冷卻管理
  • 更加關(guān)注可持續(xù)性和熱量再利用) _5 D+ P0 L* G4 K* x3 v9 C

    . a8 v) [9 n& r9 d7 y4 ?
    ' h: B7 B0 C. \" h" Z5 E) W圖9展示了未來人工智能和冷卻趨勢的"水晶球"視圖,包括人工智能推理的擴(kuò)展、特定領(lǐng)域的LLMs,以及人工通用智能(AGI)的潛力。
    6 M: s0 {% {% u' g5 N; j
    ) s$ t9 B# p( g0 ~0 v結(jié)論
    2 x/ W; k; D: F8 i- o人工智能革命已將數(shù)據(jù)中心熱管理推向極限,需要從傳統(tǒng)空氣冷卻轉(zhuǎn)向更高效的液體冷卻解決方案。隨著行業(yè)繼續(xù)發(fā)展,采用這些新的冷卻技術(shù)對支持下一代人工智能和高性能計(jì)算工作負(fù)載將變得越來越重要。通過了解和實(shí)施先進(jìn)的冷卻技術(shù),數(shù)據(jù)中心運(yùn)營商可以確保準(zhǔn)備好應(yīng)對未來的計(jì)算需求,同時提高效率并減少環(huán)境影響。
    $ m/ M- C/ d" H" ]
    $ X  L/ t2 j* Q: I* Z參考文獻(xiàn)
    6 \7 O! s7 d( z5 ]9 B[1] T. Garvens, "Thermal Techniques for Data Center Compute Density," Supermicro, Aug. 23, 2024.2 L4 K. O/ N. `* v" }8 Q. f: ^

    . S. m& N! s" T- I/ R/ Q& h- END -
    " i+ t) ^; s+ q2 X0 ~* m+ [' y5 X- c# ?1 ^; Y) x- r. A8 T
    軟件申請我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。
    4 \7 [0 Z% G8 `: G點(diǎn)擊左下角"閱讀原文"馬上申請
    . \' g& }2 C6 L+ ]! t
    ! S9 W8 }6 m) z4 K( d) r8 t歡迎轉(zhuǎn)載
    ; o$ A7 D# Z; v! y: G! `7 [2 r. O  v+ ]1 h/ ^9 Y% z1 _- z* e
    轉(zhuǎn)載請注明出處,請勿修改內(nèi)容和刪除作者信息!
    & T9 E( C, z* m% q; P8 V' T8 T; ^

    / F, p" f  @. y) o  y( k- f+ f2 Y
    , }( T& I$ i8 X; q7 ~6 A8 V$ S! T
      ?6 o  F' y5 P# `# D" n
    8 h2 ~3 t7 L7 J. J( P, Q! ]
    關(guān)注我們
    ! {+ {4 A8 F2 c6 Z. u# E) U. M$ T. J8 Y; ]1 W& O

    ( U$ N5 X1 e1 `; Z: P7 j
    , @) `) v% h$ j: d6 D' y
    * v: ?7 T7 ?$ j# u) i* f

    * g3 C4 h8 s% E
    0 k/ J( d$ a: H9 i; ?6 Z6 |
    $ M' {  X3 M0 a7 D
                         
    0 i' O! f& G: p# ]  o! u& K- L: R0 |& D+ V" [$ m* z, @$ W3 C
    7 J0 ^' L7 g. D7 S
      I- I3 z7 i7 W+ I2 A( ~: q- _
    關(guān)于我們:
    # V* o+ b- S% p# r7 A2 p深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專注于半導(dǎo)體芯片設(shè)計(jì)自動化(EDA)的高科技軟件公司。我們自主開發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶。逍遙科技與國內(nèi)外晶圓代工廠及硅光/MEMS中試線合作,推動特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶提供前沿技術(shù)與服務(wù)。4 L" y+ y+ _9 e, {+ {3 R7 t3 p  @

    * |3 _6 h6 c" c9 W2 s7 f$ Nhttp://www.latitudeda.com/9 A! H1 |* h: v- a' _. s
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    您需要登錄后才可以回帖 登錄 | 立即注冊

    本版積分規(guī)則

    關(guān)閉

    站長推薦上一條 /1 下一條


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表