電子產(chǎn)業(yè)一站式賦能平臺(tái)

PCB聯(lián)盟網(wǎng)

搜索
查看: 43|回復(fù): 0
收起左側(cè)

Hot Chips 2024 | 可持續(xù)計(jì)算在AI和云原生工作負(fù)載中的應(yīng)用

[復(fù)制鏈接]

544

主題

544

帖子

4338

積分

四級(jí)會(huì)員

Rank: 4

積分
4338
跳轉(zhuǎn)到指定樓層
樓主
引言) f6 @7 j6 g- i9 I; F6 i
在當(dāng)今快速發(fā)展的技術(shù)環(huán)境中,對(duì)高效且可持續(xù)的計(jì)算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負(fù)載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負(fù)載的復(fù)雜性和規(guī)模不斷增長(zhǎng),需要能夠處理這些任務(wù)同時(shí)最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運(yùn)而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計(jì)算的挑戰(zhàn)[1]。) q4 h: e9 `# b9 ]/ W2 Y

2 z- K- M% {2 y1 [處理器設(shè)計(jì)的范式轉(zhuǎn)變
) q8 t( f$ X! H8 |! X6 O, x: F傳統(tǒng)的處理器設(shè)計(jì)技術(shù)在滿(mǎn)足當(dāng)今工作負(fù)載需求方面已達(dá)到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線(xiàn)程等方法。相反,它專(zhuān)注于功率優(yōu)化、一致的性能和線(xiàn)性核心擴(kuò)展。
* p) D3 |5 w$ `3 Q; H 0 a  _+ J* t  P- U
圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強(qiáng)調(diào)了功率優(yōu)化和線(xiàn)性核心擴(kuò)展的重點(diǎn)。
2 g. c( O: w! X; D- u" b
5 c. `( g5 I$ p& }0 P, }* AAmpereOne路線(xiàn)圖:持續(xù)創(chuàng)新的承諾
" U. w% i) N8 H# k- [# S/ n; z3 yAmpereOne的產(chǎn)品路線(xiàn)圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計(jì)算提供每機(jī)架最佳性能。路線(xiàn)圖從當(dāng)前的AmpereOne系列開(kāi)始,具有高達(dá)192個(gè)核心的5nm工藝,一直延伸到未來(lái)的迭代版本,如AmpereOne Aurora,承諾提供高達(dá)512個(gè)核心,并集成用于訓(xùn)練和推理工作負(fù)載的AI硅。5 o3 Z" r5 d0 o) e  D

/ c. x  _$ X; ]2 x4 r" q- S" K圖2展示了AmpereOne的產(chǎn)品路線(xiàn)圖,展示了從當(dāng)前型號(hào)到未來(lái)迭代的發(fā)展過(guò)程,核心數(shù)量不斷增加,功能不斷先進(jìn)。, b/ p0 o. H+ U3 m& F4 C
9 M5 H! E+ E& W: g' U# w$ }/ p7 F
深入了解AmpereOne核心
& H( E: m  h0 D' \2 s  B0 I: sAmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計(jì)。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:: f& K' g, N- B/ `, {# b" K

; F! S- g# b1 m1. 前端  j+ Y: H4 Q0 k
  • 最先進(jìn)的分支預(yù)測(cè)
  • 解耦的預(yù)測(cè)和獲取流水線(xiàn)
  • 用于大代碼足跡的高帶寬接口
    $ e9 d4 K' d* t/ O
    * s# A6 s) ^% d& G
    2. 執(zhí)行
    . N9 _. F/ e3 _) i0 ~% I
  • 8個(gè)調(diào)度器供給12個(gè)執(zhí)行管道
  • 對(duì)稱(chēng)的整數(shù)和FP/矢量執(zhí)行管道
  • 通過(guò)單uop int8 MMLA支持AI推理吞吐量
    ' H& B7 b9 V" q% y
    $ F4 R6 C6 `5 E' q
    3. 加載存儲(chǔ)單元
    & D6 ]# r! }' ?8 i) l9 k1 i
  • 64KB,4路寫(xiě)直通DL1緩存
  • 4周期整數(shù)加載使用延遲
  • 從零開(kāi)始的熔斷保護(hù)5 ^8 d1 M  t7 f$ C$ e" b3 R# g
    5 ~  z8 V6 r2 D( ]! e. ?) V+ t( [
    4. 內(nèi)存管理' o: I1 C, K4 S3 I% I4 p; m
  • 支持任何頁(yè)面大小的通用TLB條目
  • 用于頁(yè)面遍歷的專(zhuān)用L2接口
  • 優(yōu)化的TLB維護(hù)響應(yīng)時(shí)間
    ( a/ P; G, s! o; r. q
    ! m3 r" X; J1 g* A$ l
    5. L2緩存7 w6 [! c+ X; K5 X
  • 2MB 8路私有L2數(shù)據(jù)/指令緩存
  • 11周期加載使用延遲
  • 請(qǐng)求率和預(yù)取的自適應(yīng)節(jié)流
    $ B% i, L" [1 ~( C3 i

    . X8 q: _' z7 O& o; d. W
    / B9 H0 m: F( O  Y2 V9 y, k+ Q / n7 c. e  F7 q9 [* s) i6 o
    圖3概述了AmpereOne核心流水線(xiàn),突出顯示了各個(gè)組件及其互連。4 u6 Z' O; P  G
    + V& p, W) |. ~( I
    AmpereOne的分解架構(gòu)$ _, ^3 q' g7 ?! R' w- A4 g* K; C
    AmpereOne的一個(gè)關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計(jì)算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個(gè)芯片使用最合適的制程制造。然后,這些組件通過(guò)Ampere的自定義芯片間(D2D)互連連接,每個(gè)方向能夠達(dá)到2.8TB/s的帶寬。
    1 J+ C% l- D* E 1 M; L: n( D" J) u- V+ Q/ U
    圖4展示了AmpereOne的分解架構(gòu),顯示了計(jì)算、內(nèi)存和PCIe組件如何分離和互連。
    6 y$ w1 U0 E' l8 P2 Y6 k
    - U5 `' R9 T3 |( j! a* W2 P4 F這種靈活的架構(gòu)允許:1 o& @7 b* ~# @2 S+ @+ K+ a
  • 使用相同的構(gòu)建塊實(shí)現(xiàn)8通道和12通道設(shè)計(jì)
  • 快速集成客戶(hù)IP
  • 定制以滿(mǎn)足獨(dú)特的客戶(hù)I/O和內(nèi)存需求, x  c: E( `  O/ s0 t8 |
    ' g6 J0 B' v9 o) Q* c2 e2 X+ ^
    增強(qiáng)安全性和性能的先進(jìn)功能
    5 A) @; B+ R* V2 W4 w/ a內(nèi)存標(biāo)記
    # }& H" C  ?# k; M3 FAmpereOne引入了強(qiáng)大的內(nèi)存標(biāo)記功能,增強(qiáng)了穩(wěn)健性和安全性。這一功能有助于檢測(cè)指針編程錯(cuò)誤并減輕利用內(nèi)存安全漏洞的攻擊。0 E# S& M* g: n. M- D3 g

      F9 F# M0 W# k1 V* X內(nèi)存標(biāo)記的關(guān)鍵方面:: K6 E! z) ~# v8 @; }
  • 每16字節(jié)內(nèi)存粒度獲得4位"分配標(biāo)記"
  • 指針在地址的高位攜帶"訪問(wèn)標(biāo)記"
  • 核心對(duì)每次內(nèi)存訪問(wèn)檢查"訪問(wèn)標(biāo)記 = 分配標(biāo)記"
  • 不匹配會(huì)導(dǎo)致故障并阻止數(shù)據(jù)訪問(wèn)
    6 S, {) `8 h+ k% U) e

    ( G9 H, V( I2 J+ L& A
    4 l' X* J! T- y- g; T1 l' W ' B5 J& _/ t4 U2 C* X$ k
    圖5演示了內(nèi)存標(biāo)記的概念,顯示了標(biāo)記如何與內(nèi)存分配和指針相關(guān)聯(lián)。
    2 l4 G. s* S& d6 a! u& R0 a7 P
    ! c6 S& u, w! w2 p! \; x& M- p自適應(yīng)流量管理
    - v$ U: ~; O) Z為了提供一致和可擴(kuò)展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對(duì)于最小化運(yùn)行間變異和獨(dú)立并發(fā)工作負(fù)載之間的干擾非常關(guān)鍵。# R7 f; W4 ^  v8 h* O" C7 c
    + n$ [. d# F2 k: s
    運(yùn)行原理:7 {; X/ F- S" K& y. B. i, h& ^
  • 內(nèi)存服務(wù)代理通報(bào)"繁忙"程度
  • 核心相應(yīng)地修改請(qǐng)求流量的速率和配置
  • 針對(duì)不同工作負(fù)載行為的自適應(yīng)響應(yīng)8 @. L. Q9 p" ^+ W
    + K) C) b" L& J9 M* A7 |
    ( w$ k" `0 r2 R% A& E; L. o
    ( ]: A$ D1 r# _) \8 V* [
    圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。  r0 }+ R$ N0 X' S7 U, v
    , i) k  S3 Z! Y* m
    性能領(lǐng)先地位6 O. D( Y7 r. A. Y$ x6 \* v9 b
    AmpereOne在各種基準(zhǔn)測(cè)試和工作負(fù)載中展示了令人印象深刻的性能指標(biāo):: d3 d" {9 n3 a3 }4 ]; K) ?

    0 j, l: N# @3 w; Z1. SPECrate 2017_int_base:
    5 h( H0 e, D  U8 }  _/ ^% ?
  • 每機(jī)架性能比AMD Genoa高出34%
  • 每瓦性能比AMD Genoa高出50%8 V4 C: }8 ]" k& F
    " B+ f7 b, ?7 ~% x+ C! a* `
    7 _% `/ b2 j2 Z
    4 e! E( o+ C5 ~) X4 T$ A. ~
    圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準(zhǔn)測(cè)試中的每機(jī)架性能和每瓦性能。# A) Q* L. K" j& w; n0 o

    & E* k; a4 d( O( c& M2. 云原生工作負(fù)載:
    2 v3 _, H6 }$ n. c
  • 鍵值存儲(chǔ)的每機(jī)架性能提高了58%
  • 在容器化Web服務(wù)、緩存和數(shù)據(jù)庫(kù)方面有顯著改進(jìn)/ G) \& a4 n7 ?0 [( \+ }& v( p( S

    2 E6 V. r! D$ c8 t) i4 U+ ?
    / m& _5 Q3 t; X3 ?+ N
    - C0 r% f. P) D: \: k圖8展示了AmpereOne在各種云原生工作負(fù)載中相對(duì)于AMD Genoa和AMD Bergamo的每機(jī)架性能改進(jìn)。
    . J4 G9 Q% F) O( a7 m3 Q, A: H4 Y+ ~$ P
    3. AI推理:
    ) w/ d& }: A0 ]. y' d
  • 在無(wú)GPU推理性能和效率方面處于領(lǐng)先地位
  • 在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色6 q8 _( g9 i  b7 J& @+ {$ r

    ! o) k  j' H, u; R. V6 ?
    2 I0 R" l3 B8 H4 T; z0 x 5 N1 p# s7 ]: I( C3 @
    圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。
    ; a* R0 S8 k# k6 q5 J7 H& \0 Z8 l- y) q4 p1 Q- K* R3 W# k
    生態(tài)系統(tǒng)就緒
    ; u. w, l  g0 {6 X7 `. z任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個(gè)類(lèi)別中都擁有強(qiáng)大的生態(tài)系統(tǒng):
    9 p2 h1 y, O* l" Y; c
  • 操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu
  • 編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺(tái)兼容
  • 語(yǔ)言和運(yùn)行時(shí):支持Java、Python、Go等
  • 網(wǎng)絡(luò)和存儲(chǔ):與Mellanox、Marvell等解決方案集成
  • 應(yīng)用程序:準(zhǔn)備用于廣泛的Web服務(wù)、數(shù)據(jù)庫(kù)、AI和云游戲應(yīng)用) g, {6 v) w% ?' m( L" e4 J, S3 m; M8 E
    - {5 F3 y3 j9 B( w4 T" X2 w
    3 T4 O5 v  s' X4 O; b1 C( i3 f

    ( g0 f9 A+ ^/ H  o圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類(lèi)別。4 W4 E5 X* g& _4 K

    # G  U; b1 S8 o! W結(jié)論. _: T* N2 ]& f) [* Z/ l* P
    AmpereOne代表了AI和云原生工作負(fù)載處理器設(shè)計(jì)的重大進(jìn)步。其創(chuàng)新架構(gòu)專(zhuān)注于可持續(xù)計(jì)算和可擴(kuò)展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計(jì)算領(lǐng)域處于領(lǐng)先地位。隨著對(duì)高效AI處理需求的持續(xù)增長(zhǎng),AmpereOne在分解設(shè)計(jì)、先進(jìn)安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。
    5 @$ A9 _+ l) P" P' x' z9 d- @* _5 n0 C- V( q* C3 G' p0 s
    通過(guò)優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負(fù)載的能力,AmpereOne不僅滿(mǎn)足了行業(yè)的當(dāng)前需求,還為未來(lái)可持續(xù)計(jì)算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動(dòng)的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進(jìn)步不以環(huán)境可持續(xù)性為代價(jià)方面發(fā)揮關(guān)鍵作用。2 s; k" q8 s* W4 y: M  ?) p3 `2 ~0 G

    / F& L' h: s5 g3 l/ N/ C參考文獻(xiàn)
    * W" Y6 T. E" b0 |/ f6 o8 m[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.
    4 E* y8 A0 E1 O: J! s; z* L; |+ v5 B  H' h% W
    END
    * ^. \0 w2 a2 G% c9 c7 |
    % y1 N* |. v% {/ j  X& `$ J) o

    2 z, f4 e. J/ }7 y$ S9 s軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。4 |) [+ m( k0 }$ w* v) N
    點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)- N: p! i# W2 j+ J4 B

    * c. O) `; A' x- J8 I歡迎轉(zhuǎn)載# L+ K+ n$ X6 `  b' @

    - Q0 ]1 L5 ^9 t/ W* i轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!( e! H7 ?/ e$ ]

    4 g2 [6 d. w& D: I, w
    9 v" @5 q) r$ ]0 ~  ^+ o

    : H3 A. M8 }# @1 m$ R
    * J- c4 v8 N6 q" H  l% u/ B
    4 o/ }' u7 Y( _& e4 G2 D關(guān)注我們
    : Q' v) n6 |1 s0 @% {% d! |
    , \: s* M" @) J6 _/ P# F* y3 D
      e, X6 o. Q% D# F7 [8 p
    , Q7 R. G& Z2 v$ e5 G0 G
    # i% F5 B9 {- \0 ?: f

    - e- i  C3 R& }

    ! g: r$ S) {& g 5 V3 }7 T5 Q3 t1 ?
                         
    % ?, t5 F" O& Q0 ~6 p% x& {+ W
    6 G  A# e  l8 K

    & p* t) l. ]* o7 a- n! G
    - I: p6 M/ k8 x5 W4 Z1 {9 |& ~關(guān)于我們:1 }! v: |3 D# ]0 U7 o3 ]" O& g% T
    深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專(zhuān)注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶(hù)。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線(xiàn)合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶(hù)提供前沿技術(shù)與服務(wù)。
    * g- q. t6 w$ L% C1 ?; K' J$ }* V% p. y7 F, U9 I; B( D* c
    http://www.latitudeda.com/' m% I# s3 I6 G: b
    (點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容)
  • 發(fā)表回復(fù)

    本版積分規(guī)則


    聯(lián)系客服 關(guān)注微信 下載APP 返回頂部 返回列表