HBM被巨頭“壟斷”,芯片廠商瞄向CXL,能成功嗎?
AI大模型發展高歌猛進,從文本生成的ChatGPT,到文生視頻的Sora,多模態交互持續迭代。在大模型的演進、落地過程中,數據存儲系統面臨性能挑戰、穩定運行和成本壓力等難題。
HBM市場有多火?
根據Yole Group的最新分析報告,由于人工智能服務器的需求超過了其他應用,HBM 在整個 DRAM出貨量中所占的份額預計將從 2023 年的約 2% 上升到 2029 年的 6%,由于 HBM價格遠高于 DDR5,就收入而言,其份額預計將從 2024 年的 140 億美元攀升至 2029 年的 380 億美元——而此前該份額已從 2023 年的約 55 億美元逐年飆升了 150% 以上。
Yole Group表示,內存供應商已經增加了 HBM 晶圓產量,預估產量從 2022 年的每月 44,000 片晶圓 (WPM) 增加到 2023 年的 74,000 WPM,并可能在 2024 年增至 151,000 WPM。
在HBM這一蓬勃發展的市場中,雖然只有三個玩家,但競爭之激烈,超出了許多人的想象。簡而言之,旱的旱死澇的澇死,排行第一的海力士在技術和市場上遙遙領先,拿走了最多的利潤,排名第二的三星正在積極發起進攻,又拿走了一部分,至于第三的美光,由于技術路線的判斷失誤,市場份額較小,目前還處于一個追趕狀態,短期內恐怕很難貢獻大額利潤。
而最新的新聞也從側面證明了這種差距。SK海力士在2月確認,自己在過去幾個月的HBM銷量創下了新紀錄,同時帶動第四季度實現盈利,并預測產業即將復蘇,SK海力士副社長金起臺(Kim Ki-tae)指出,生成式AI服務日益多樣并持續發展,作為AI存儲解決方案的HBM需求也出現爆炸性成長。
更重要的是,他提到今年海力士旗下HBM已經全部售罄,雖然2024年才剛開始,但公司為了保持市場領先地位,已開始為2025年預作準備。‘
2024年剛開始,SK海力士就已經在考慮2025年的HBM市場了,隔壁三星和美光所背負的壓力也是巨大,在追趕技術和市場的同時,他們在思考,能否繞開HBM這項技術,從另一個方向去搶占AI市場呢?
此時,CXL(Compute Express Link)再度進入到了內存廠商的視線當中。
什么是CXL?
CXL的起源可追溯到數據中心和高性能計算領域對更快速、更高效互連技術的需求。過去,HDD磁盤和內存之間差距很多,但隨著SSD、NVMe 設備的出現逐漸彌補了中間的鴻溝。然而即使采用了NVMe設備,其與內存的差異仍然有10倍以上。傳統數據庫對于這一差異已經不再敏感,原因是因為系統的瓶頸已經來到了CPU側,因此這幾年所有人都在關注列存、向量化等技術來降低內存使用。對于許多應用而言,盡管NVMe的延遲已經足夠滿足要求,但是吞吐依然是很明顯的瓶頸,因此并不能完全替代內存,這其中模型訓練、向量數據都是非常典型的場景。
CXL的出現很好地解決了這個問題,通過將設備掛載到PCIe總線上,CXL實現了設備到CPU之間的互聯,實現了存儲計算分離。CXL 還允許 CPU 以低延遲和高帶寬訪問連接設備上更大的內存池,從而擴展內存。這可以增加 AI/ML 應用程序的內存容量和性能。
CXL利用靈活的處理器端口,可以在 PCIe 或 CXL 模式下運行。這兩種設備類別均可在 PCIe5.0 中實現 32 GT/s 的數據速率,在 PCIe6.0 中實現高達 64 GT/s 的數據速率,為 AI/ML 應用提供了額外的功能和優勢。
為什么需要 CXL?
隨著可用數據量的增長,數據中心必須適應更復雜、要求更高的工作負載。已有數十年歷史的服務器架構正在發生變化,使高性能計算系統能夠處理人工智能/機器學習應用程序產生的大量數據。
這就是 CXL 的用武之地。CXL提供有效的資源共享/池來提高性能,最大限度地減少對復雜軟件的需求,并降低系統總成本。
CXL 為企業和數據中心運營商帶來多種優勢,包括:
實現了計算和存儲資源的分離,不再局限于CPU,GPU、FPGA都可以實現CXL協議共享內存資源并實現跟CPU的數據交互。
提供了比內存插槽所能容納的更多的容量和帶寬。
通過 CXL 連接設備,計算資源的擴展會變的更加容易。
內存變得更加彈性,按需分配、動態遷移都將變成可能。
允許 CPU 結合 DRAM 內存使用額外內存 。
CXL協議具體能干啥?
從2019年發布CXL 1.0/1.1,到2020年11月發布CXL2.0,如今Intel已經發布了CXL 3.0,它的功能一直在發生著變化。
首先我們來看下CXL是什么?CXL要如何解決問題呢?
如今,CXL有CXL.io、CXL.memory和CXL.cache三個協議:
其中,CXL.io就是原來的PCIe,在CXL的建立連接、設備發現、配置等過程中發揮重要作用,連接建立后,CXL.cache協議負責做cache一致性的工作,CXL.cache和CXL.memory配合起來用來做內存擴展。
CXL.cache和CXL.memory對于latency的要求會比較高,尤其CXL.cache對延遲要求非常高,因為這關系到計算的效率。
在CXL1.0和1.1規范定義了三種Device:
Type1Device主要的應用場景是高性能計算里的網卡(PGAS NIC),它支持一些網卡的原子操作,主要利用的協議就是CXL.io和CXL.cache。
Type2Device主要指的是帶有內存的加速器,包括GPU、FPGA等加速器,它使用的協議包括用來做鏈接的CXL.io,做cache一致性的CXL.cache,用來做內存擴展的CXL.memory。
Type3Device主要用作內存的Buffer,做內存的擴展。它主要利用CXL.io和CXL.memory的協議。如圖所示,CPU除了可以用本地的DDR內存,還可以通過CXL去擴展遠端內存,遠端內存可以是一個大的內存池,這里的內存可以共享給不同的CPU來用。
CXL2.0規范實現了機架級別的資源池化。
云計算強調資源可以像水和電一樣按需獲取,云計算的技術潮流下,追求不同資源之間的松耦合,為的是提高使用效率,為了提高使用效率,要實現的是相同資源的池化。
隨著技術的發展,未來的服務器不再是傳統意義上的服務器,它不再具有現實的形態,用戶從云服務商那里申請云主機的時候,主機的CPU是從CPU池里拿出來的,內存是從內存池里拿出來的,CPU池和內存池通過CXL連起來的。
使用從資源池里拿出來資源組成邏輯上的服務器,這就是資源解耦和資源池化在未來能帶來的變化。
CXL2.0規范在資源池化方面有所強化,同時,也還增加了CXL switch功能,它可以在一個機架內通過一套CXL交換機構建成一個網絡。
2022年,新發布的CXL 3.0規范又新增很多特性。
首先,CXL 3.0 PCIe 6.0規范,它的速率從32GT提升到了64GT,在相同的鏈路時,帶寬翻倍。并且,Latency也沒有任何變化。
第二,CXL 3.0新增了對二層交換機的支持,也就是Leaf spine網絡架構,如此便可以更好地對資源進行解耦和池化,做更多的資源池,比如CPU資源池、內存資源池、網卡資源池和加速器資源池等,Leaf與Spine之間通過Fabric manager軟件構建各種拓撲和各種路由方式。
CXL 3.0不但可以更好地在一個機柜內實現計算資源和存儲資源的池化和解耦,而且,可以在多個機柜之間建立更大的資源池,如此一來,對于云計算服務商的資源管理效率和成本優化都會帶來很大幫助。
CXL的未來發展方向?
說了那么多CXL的優勢和好處,那么CXL的未來發展方向如何呢?
首先,CXL可以用來擴展內存的容量和帶寬,這是非常重要的一個方面。在使用服務器本地內存的同時,還可以通過CXL利用遠端內存,遠端內存的成本和價格相對更低,而且,它能讓CPU和內存之間的配比變得更靈活。
進一步發展之后,未來完全可以取消近端本地內存,全部都使用遠端內存,這有賴于摩爾定律的作用,讓計算芯片和存儲芯片都有更進一步的發展。
與此同時,CPU上會有比DRAM更高速的內存,比如可能會把HBM與處理器封裝到一個die里,使得CPU有更多的高速內存。
另外,還有一個趨勢在于遠端內存的持久化。目前,英特爾就有傲騰持久內存,但因為一些原因,英特爾宣布不再繼續研發了,不過,業界還有很多替代方案,比如NVDIMM,配合CXL將這些持久內存作為遠端內存,還能夠提供多種實用功能。
除此之外,還能利用CXL技術實現Computational Storage,通過CXL利用內存資源,在存儲上做一些壓縮或者解壓縮的操作,類似可以在遠端實現的功能還有很多。
CXL帶來的改變從單節點開始,擴展到機架規模,而后是Tor級別,最終會影響到數據中心級別,CXL將要重構未來的數據中心。
數據中心利用CXL做解耦和池化,CXL技術能夠讓不同的資源從緊耦合變成松耦合,讓相同的資源變成池化資源,會形成CPU資源池、GPU資源池以及內存資源池,各個資源池通過CXL連接。
在未來發展中,隨著CXL技術的逐步落地,IPU承擔的任務也會越來越多,既作為CXL的端點,又作為以太網的端點,會有很多功能和負載卸載到IPU上,架構上會有很多變化,將會有很多新的創新。
寫在最后
就2024初來看,CXL標準落地仍有許多障礙需要克服。三星開發的 CXL 2.0 DRAM 與現有標準相比,可擴展性有限。開發與 GPU、CPU 和 DRAM 兼容的 CXL 交換設備、設計 CXL DRAM 模塊以及快速開發支持軟件等挑戰都是當務之急。
而建立生態系統也同樣重要。CXL領域的知名企業包括與擁有 CXL 3.0 設計資產和集成解決方案的全球半導體公司合作的韓國初創企業Panmesia,以及擁有 CXL DRAM 控制器設計技術的中國的瀾起科技,業內人士指出:"要在 CXL 3.0 中實現理想的可擴展性,僅僅停頓在部分技術開發上是不夠的,必須要有涵蓋整個生態系統的整體技術。"
好消息是,截至目前,CXL內存擴充模組的應用環境已經較為完善,主要的內存廠商均已推出自家的CXL內存擴充模組產品,雖然現在的服務器只能支持CXL 1.1標準,但基本上已經可以連接與運行,等到下一代也就是支持CXL 2.0服務器上線后,就能更好地利用它的優勢,從而實現這一標準的普及。
在2024年年初,我們可以用一句話來形容,就是萬事俱備,CXL只欠應用這場東風了。
當然,關于CXL競爭依舊不可避免,有韓國業內人士表示,“雖然公眾不知道,但三星電子和 SK 海力士都‘全力以赴’確保在 CXL 技術方面取得領先地位,就像他們對 HBM 所做的那樣。”
卷完了HBM,內存廠商又瞄上了CXL,一場新的內存戰爭,即將展開。
