|
引言) f6 @7 j6 g- i9 I; F6 i
在當(dāng)今快速發(fā)展的技術(shù)環(huán)境中,對(duì)高效且可持續(xù)的計(jì)算解決方案的需求從未如此迫切。本文旨在幫助了解AI和云原生工作負(fù)載方面的創(chuàng)新。隨著人工智能(AI)和云原生工作負(fù)載的復(fù)雜性和規(guī)模不斷增長(zhǎng),需要能夠處理這些任務(wù)同時(shí)最大限度減少能源消耗的處理器變得極為重要。AmpereOne應(yīng)運(yùn)而生,這是一系列突破性的云原生處理器,旨在直面現(xiàn)代計(jì)算的挑戰(zhàn)[1]。) q4 h: e9 `# b9 ]/ W2 Y
2 z- K- M% {2 y1 [處理器設(shè)計(jì)的范式轉(zhuǎn)變
) q8 t( f$ X! H8 |! X6 O, x: F傳統(tǒng)的處理器設(shè)計(jì)技術(shù)在滿(mǎn)足當(dāng)今工作負(fù)載需求方面已達(dá)到極限。AmpereOne代表了范式轉(zhuǎn)變,摒棄了傳統(tǒng)的渦輪頻率和超線(xiàn)程等方法。相反,它專(zhuān)注于功率優(yōu)化、一致的性能和線(xiàn)性核心擴(kuò)展。
* p) D3 |5 w$ `3 Q; H
uq1nz3ceyd3640112469142.png (132.3 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
uq1nz3ceyd3640112469142.png
4 天前 上傳
0 a _+ J* t P- U
圖1展示了從傳統(tǒng)處理器技術(shù)到AmpereOne創(chuàng)新方法的轉(zhuǎn)變,強(qiáng)調(diào)了功率優(yōu)化和線(xiàn)性核心擴(kuò)展的重點(diǎn)。
2 g. c( O: w! X; D- u" b
5 c. `( g5 I$ p& }0 P, }* AAmpereOne路線(xiàn)圖:持續(xù)創(chuàng)新的承諾
" U. w% i) N8 H# k- [# S/ n; z3 yAmpereOne的產(chǎn)品路線(xiàn)圖展示了快速創(chuàng)新的步伐,明確承諾在氣冷環(huán)境下為AI計(jì)算提供每機(jī)架最佳性能。路線(xiàn)圖從當(dāng)前的AmpereOne系列開(kāi)始,具有高達(dá)192個(gè)核心的5nm工藝,一直延伸到未來(lái)的迭代版本,如AmpereOne Aurora,承諾提供高達(dá)512個(gè)核心,并集成用于訓(xùn)練和推理工作負(fù)載的AI硅。5 o3 Z" r5 d0 o) e D
nxxxdumrr4p640112469242.png (197.01 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
nxxxdumrr4p640112469242.png
4 天前 上傳
/ c. x _$ X; ]2 x4 r" q- S" K圖2展示了AmpereOne的產(chǎn)品路線(xiàn)圖,展示了從當(dāng)前型號(hào)到未來(lái)迭代的發(fā)展過(guò)程,核心數(shù)量不斷增加,功能不斷先進(jìn)。, b/ p0 o. H+ U3 m& F4 C
9 M5 H! E+ E& W: g' U# w$ }/ p7 F
深入了解AmpereOne核心
& H( E: m h0 D' \2 s B0 I: sAmpereOne性能的核心在于其創(chuàng)新的核心設(shè)計(jì)。讓我們探索使該處理器脫穎而出的關(guān)鍵組件:: f& K' g, N- B/ `, {# b" K
; F! S- g# b1 m1. 前端 j+ Y: H4 Q0 k
最先進(jìn)的分支預(yù)測(cè)解耦的預(yù)測(cè)和獲取流水線(xiàn)用于大代碼足跡的高帶寬接口
$ e9 d4 K' d* t/ O* s# A6 s) ^% d& G
2. 執(zhí)行
. N9 _. F/ e3 _) i0 ~% I8個(gè)調(diào)度器供給12個(gè)執(zhí)行管道對(duì)稱(chēng)的整數(shù)和FP/矢量執(zhí)行管道通過(guò)單uop int8 MMLA支持AI推理吞吐量
' H& B7 b9 V" q% y$ F4 R6 C6 `5 E' q
3. 加載存儲(chǔ)單元
& D6 ]# r! }' ?8 i) l9 k1 i64KB,4路寫(xiě)直通DL1緩存4周期整數(shù)加載使用延遲從零開(kāi)始的熔斷保護(hù)5 ^8 d1 M t7 f$ C$ e" b3 R# g
5 ~ z8 V6 r2 D( ]! e. ?) V+ t( [
4. 內(nèi)存管理' o: I1 C, K4 S3 I% I4 p; m
支持任何頁(yè)面大小的通用TLB條目用于頁(yè)面遍歷的專(zhuān)用L2接口優(yōu)化的TLB維護(hù)響應(yīng)時(shí)間
( a/ P; G, s! o; r. q! m3 r" X; J1 g* A$ l
5. L2緩存7 w6 [! c+ X; K5 X
2MB 8路私有L2數(shù)據(jù)/指令緩存11周期加載使用延遲請(qǐng)求率和預(yù)取的自適應(yīng)節(jié)流
$ B% i, L" [1 ~( C3 i
. X8 q: _' z7 O& o; d. W
/ B9 H0 m: F( O Y2 V9 y, k+ Q
yjgwmsbkfv5640112469343.png (258.95 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
yjgwmsbkfv5640112469343.png
4 天前 上傳
/ n7 c. e F7 q9 [* s) i6 o
圖3概述了AmpereOne核心流水線(xiàn),突出顯示了各個(gè)組件及其互連。4 u6 Z' O; P G
+ V& p, W) |. ~( I
AmpereOne的分解架構(gòu)$ _, ^3 q' g7 ?! R' w- A4 g* K; C
AmpereOne的一個(gè)關(guān)鍵創(chuàng)新是分解架構(gòu)。這種方法將計(jì)算、內(nèi)存和PCIe子系統(tǒng)分離到不同的芯片上,每個(gè)芯片使用最合適的制程制造。然后,這些組件通過(guò)Ampere的自定義芯片間(D2D)互連連接,每個(gè)方向能夠達(dá)到2.8TB/s的帶寬。
1 J+ C% l- D* E
mcccjpnso5p640112469443.png (143.58 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
mcccjpnso5p640112469443.png
4 天前 上傳
1 M; L: n( D" J) u- V+ Q/ U
圖4展示了AmpereOne的分解架構(gòu),顯示了計(jì)算、內(nèi)存和PCIe組件如何分離和互連。
6 y$ w1 U0 E' l8 P2 Y6 k
- U5 `' R9 T3 |( j! a* W2 P4 F這種靈活的架構(gòu)允許:1 o& @7 b* ~# @2 S+ @+ K+ a
使用相同的構(gòu)建塊實(shí)現(xiàn)8通道和12通道設(shè)計(jì)快速集成客戶(hù)IP定制以滿(mǎn)足獨(dú)特的客戶(hù)I/O和內(nèi)存需求, x c: E( ` O/ s0 t8 |
' g6 J0 B' v9 o) Q* c2 e2 X+ ^
增強(qiáng)安全性和性能的先進(jìn)功能
5 A) @; B+ R* V2 W4 w/ a內(nèi)存標(biāo)記
# }& H" C ?# k; M3 FAmpereOne引入了強(qiáng)大的內(nèi)存標(biāo)記功能,增強(qiáng)了穩(wěn)健性和安全性。這一功能有助于檢測(cè)指針編程錯(cuò)誤并減輕利用內(nèi)存安全漏洞的攻擊。0 E# S& M* g: n. M- D3 g
F9 F# M0 W# k1 V* X內(nèi)存標(biāo)記的關(guān)鍵方面:: K6 E! z) ~# v8 @; }
每16字節(jié)內(nèi)存粒度獲得4位"分配標(biāo)記"指針在地址的高位攜帶"訪問(wèn)標(biāo)記"核心對(duì)每次內(nèi)存訪問(wèn)檢查"訪問(wèn)標(biāo)記 = 分配標(biāo)記"不匹配會(huì)導(dǎo)致故障并阻止數(shù)據(jù)訪問(wèn)
6 S, {) `8 h+ k% U) e
( G9 H, V( I2 J+ L& A
4 l' X* J! T- y- g; T1 l' W
nlqco5wqc1y640112469543.png (251.8 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
nlqco5wqc1y640112469543.png
4 天前 上傳
' B5 J& _/ t4 U2 C* X$ k
圖5演示了內(nèi)存標(biāo)記的概念,顯示了標(biāo)記如何與內(nèi)存分配和指針相關(guān)聯(lián)。
2 l4 G. s* S& d6 a! u& R0 a7 P
! c6 S& u, w! w2 p! \; x& M- p自適應(yīng)流量管理
- v$ U: ~; O) Z為了提供一致和可擴(kuò)展的性能,AmpereOne采用了自適應(yīng)流量管理。這一能力對(duì)于最小化運(yùn)行間變異和獨(dú)立并發(fā)工作負(fù)載之間的干擾非常關(guān)鍵。# R7 f; W4 ^ v8 h* O" C7 c
+ n$ [. d# F2 k: s
運(yùn)行原理:7 {; X/ F- S" K& y. B. i, h& ^
內(nèi)存服務(wù)代理通報(bào)"繁忙"程度核心相應(yīng)地修改請(qǐng)求流量的速率和配置針對(duì)不同工作負(fù)載行為的自適應(yīng)響應(yīng)8 @. L. Q9 p" ^+ W
+ K) C) b" L& J9 M* A7 |
( w$ k" `0 r2 R% A& E; L. o
jhtr4ttesbk640112469643.png (260.76 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
jhtr4ttesbk640112469643.png
4 天前 上傳
( ]: A$ D1 r# _) \8 V* [
圖6比較了AmpereOne與AMD Bergamo和AMD Genoa的加載延遲,展示了自適應(yīng)流量管理的有效性。 r0 }+ R$ N0 X' S7 U, v
, i) k S3 Z! Y* m
性能領(lǐng)先地位6 O. D( Y7 r. A. Y$ x6 \* v9 b
AmpereOne在各種基準(zhǔn)測(cè)試和工作負(fù)載中展示了令人印象深刻的性能指標(biāo):: d3 d" {9 n3 a3 }4 ]; K) ?
0 j, l: N# @3 w; Z1. SPECrate 2017_int_base:
5 h( H0 e, D U8 } _/ ^% ?每機(jī)架性能比AMD Genoa高出34%每瓦性能比AMD Genoa高出50%8 V4 C: }8 ]" k& F
" B+ f7 b, ?7 ~% x+ C! a* `
7 _% `/ b2 j2 Z
qpe3xbxt5lh640112469743.png (161.4 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
qpe3xbxt5lh640112469743.png
4 天前 上傳
4 e! E( o+ C5 ~) X4 T$ A. ~
圖7比較了AmpereOne與AMD Genoa和AMD Bergamo在SPECrate 2017_int_base基準(zhǔn)測(cè)試中的每機(jī)架性能和每瓦性能。# A) Q* L. K" j& w; n0 o
& E* k; a4 d( O( c& M2. 云原生工作負(fù)載:
2 v3 _, H6 }$ n. c鍵值存儲(chǔ)的每機(jī)架性能提高了58%在容器化Web服務(wù)、緩存和數(shù)據(jù)庫(kù)方面有顯著改進(jìn)/ G) \& a4 n7 ?0 [( \+ }& v( p( S
2 E6 V. r! D$ c8 t) i4 U+ ?
/ m& _5 Q3 t; X3 ?+ N
su42cbzjji2640112469844.png (184.4 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
su42cbzjji2640112469844.png
4 天前 上傳
- C0 r% f. P) D: \: k圖8展示了AmpereOne在各種云原生工作負(fù)載中相對(duì)于AMD Genoa和AMD Bergamo的每機(jī)架性能改進(jìn)。
. J4 G9 Q% F) O( a7 m3 Q, A: H4 Y+ ~$ P
3. AI推理:
) w/ d& }: A0 ]. y' d在無(wú)GPU推理性能和效率方面處于領(lǐng)先地位在各種AI模型(包括BERT、ResNet-50、Stable Diffusion和LLAMA 3 8B)中表現(xiàn)出色6 q8 _( g9 i b7 J& @+ {$ r
! o) k j' H, u; R. V6 ?
2 I0 R" l3 B8 H4 T; z0 x
ulcnfjlumvu640112469944.png (254.06 KB, 下載次數(shù): 4)
下載附件
保存到相冊(cè)
ulcnfjlumvu640112469944.png
4 天前 上傳
5 N1 p# s7 ]: I( C3 @
圖9比較了AmpereOne與AMD EPYC和Intel Xeon處理器在不同AI模型中的推理性能和每瓦推理性能。
; a* R0 S8 k# k6 q5 J7 H& \0 Z8 l- y) q4 p1 Q- K* R3 W# k
生態(tài)系統(tǒng)就緒
; u. w, l g0 {6 X7 `. z任何處理器架構(gòu)的成功都取決于生態(tài)系統(tǒng)的支持。AmpereOne在各個(gè)類(lèi)別中都擁有強(qiáng)大的生態(tài)系統(tǒng):
9 p2 h1 y, O* l" Y; c操作系統(tǒng):支持流行的Linux發(fā)行版,如Alma Linux和Ubuntu編排、虛擬化和容器:與Docker、Kubernetes和VMware等領(lǐng)先平臺(tái)兼容語(yǔ)言和運(yùn)行時(shí):支持Java、Python、Go等網(wǎng)絡(luò)和存儲(chǔ):與Mellanox、Marvell等解決方案集成應(yīng)用程序:準(zhǔn)備用于廣泛的Web服務(wù)、數(shù)據(jù)庫(kù)、AI和云游戲應(yīng)用) g, {6 v) w% ?' m( L" e4 J, S3 m; M8 E
- {5 F3 y3 j9 B( w4 T" X2 w
3 T4 O5 v s' X4 O; b1 C( i3 f
0hbp4221e3a640112470044.png (216.43 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
0hbp4221e3a640112470044.png
4 天前 上傳
( g0 f9 A+ ^/ H o圖10展示了AmpereOne廣泛的生態(tài)系統(tǒng)支持,突出顯示了各種軟件和硬件兼容性類(lèi)別。4 W4 E5 X* g& _4 K
# G U; b1 S8 o! W結(jié)論. _: T* N2 ]& f) [* Z/ l* P
AmpereOne代表了AI和云原生工作負(fù)載處理器設(shè)計(jì)的重大進(jìn)步。其創(chuàng)新架構(gòu)專(zhuān)注于可持續(xù)計(jì)算和可擴(kuò)展性能,使其在快速發(fā)展的數(shù)據(jù)中心和云計(jì)算領(lǐng)域處于領(lǐng)先地位。隨著對(duì)高效AI處理需求的持續(xù)增長(zhǎng),AmpereOne在分解設(shè)計(jì)、先進(jìn)安全功能和生態(tài)系統(tǒng)支持方面的方法使其成為組織構(gòu)建下一代云基礎(chǔ)設(shè)施的極具吸引力的選擇。
5 @$ A9 _+ l) P" P' x' z9 d- @* _5 n0 C- V( q* C3 G' p0 s
通過(guò)優(yōu)先考慮每瓦性能和適應(yīng)多樣化工作負(fù)載的能力,AmpereOne不僅滿(mǎn)足了行業(yè)的當(dāng)前需求,還為未來(lái)可持續(xù)計(jì)算的創(chuàng)新奠定了基礎(chǔ)。隨著我們邁向日益由AI驅(qū)動(dòng)的世界,像AmpereOne這樣的處理器將在確保我們的技術(shù)進(jìn)步不以環(huán)境可持續(xù)性為代價(jià)方面發(fā)揮關(guān)鍵作用。2 s; k" q8 s* W4 y: M ?) p3 `2 ~0 G
/ F& L' h: s5 g3 l/ N/ C參考文獻(xiàn)
* W" Y6 T. E" b0 |/ f6 o8 m[1] M. Erler, "Sustainable Computing for AI & Cloud Native Workloads," Ampere Computing, Aug. 27, 2024.
4 E* y8 A0 E1 O: J! s; z* L; |+ v5 B H' h% W
END
* ^. \0 w2 a2 G% c9 c7 |% y1 N* |. v% {/ j X& `$ J) o
2 z, f4 e. J/ }7 y$ S9 s軟件申請(qǐng)我們歡迎化合物/硅基光電子芯片的研究人員和工程師申請(qǐng)?bào)w驗(yàn)免費(fèi)版PIC Studio軟件。無(wú)論是研究還是商業(yè)應(yīng)用,PIC Studio都可提升您的工作效能。4 |) [+ m( k0 }$ w* v) N
點(diǎn)擊左下角"閱讀原文"馬上申請(qǐng)- N: p! i# W2 j+ J4 B
* c. O) `; A' x- J8 I歡迎轉(zhuǎn)載# L+ K+ n$ X6 ` b' @
- Q0 ]1 L5 ^9 t/ W* i轉(zhuǎn)載請(qǐng)注明出處,請(qǐng)勿修改內(nèi)容和刪除作者信息!( e! H7 ?/ e$ ]
4 g2 [6 d. w& D: I, w
9 v" @5 q) r$ ]0 ~ ^+ o
: H3 A. M8 }# @1 m$ R
c2dgcf5cv33640112470144.gif (16.04 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
c2dgcf5cv33640112470144.gif
4 天前 上傳
* J- c4 v8 N6 q" H l% u/ B
4 o/ }' u7 Y( _& e4 G2 D關(guān)注我們
: Q' v) n6 |1 s0 @% {% d! |
, \: s* M" @) J6 _/ P# F* y3 D e, X6 o. Q% D# F7 [8 p
rj20gyvvgpw640112470244.png (31.33 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
rj20gyvvgpw640112470244.png
4 天前 上傳
, Q7 R. G& Z2 v$ e5 G0 G
| # i% F5 B9 {- \0 ?: f
xf30cmr0kwg640112470344.png (82.79 KB, 下載次數(shù): 3)
下載附件
保存到相冊(cè)
xf30cmr0kwg640112470344.png
4 天前 上傳
- e- i C3 R& } |
! g: r$ S) {& g
000ak3qlygi640112470444.png (21.52 KB, 下載次數(shù): 2)
下載附件
保存到相冊(cè)
000ak3qlygi640112470444.png
4 天前 上傳
5 V3 }7 T5 Q3 t1 ?
|
% ?, t5 F" O& Q0 ~6 p% x& {+ W
6 G A# e l8 K
& p* t) l. ]* o7 a- n! G
- I: p6 M/ k8 x5 W4 Z1 {9 |& ~關(guān)于我們:1 }! v: |3 D# ]0 U7 o3 ]" O& g% T
深圳逍遙科技有限公司(Latitude Design Automation Inc.)是一家專(zhuān)注于半導(dǎo)體芯片設(shè)計(jì)自動(dòng)化(EDA)的高科技軟件公司。我們自主開(kāi)發(fā)特色工藝芯片設(shè)計(jì)和仿真軟件,提供成熟的設(shè)計(jì)解決方案如PIC Studio、MEMS Studio和Meta Studio,分別針對(duì)光電芯片、微機(jī)電系統(tǒng)、超透鏡的設(shè)計(jì)與仿真。我們提供特色工藝的半導(dǎo)體芯片集成電路版圖、IP和PDK工程服務(wù),廣泛服務(wù)于光通訊、光計(jì)算、光量子通信和微納光子器件領(lǐng)域的頭部客戶(hù)。逍遙科技與國(guó)內(nèi)外晶圓代工廠及硅光/MEMS中試線(xiàn)合作,推動(dòng)特色工藝半導(dǎo)體產(chǎn)業(yè)鏈發(fā)展,致力于為客戶(hù)提供前沿技術(shù)與服務(wù)。
* g- q. t6 w$ L% C1 ?; K' J$ }* V% p. y7 F, U9 I; B( D* c
http://www.latitudeda.com/' m% I# s3 I6 G: b
(點(diǎn)擊上方名片關(guān)注我們,發(fā)現(xiàn)更多精彩內(nèi)容) |
|