HBM3來了!HBM未來潛力與演進方向在哪?
由于處理器與存儲器的工藝、封裝、需求的不同,從1980年開始至今二者之間的性能差距越來越大。有數據顯示,處理器和存儲器的速度失配以每年50%的速率增加。
存儲器數據訪問速度跟不上處理器的數據處理速度,數據傳輸就像處在一個巨大的漏斗之中,不管處理器灌進去多少,存儲器都只能“細水長流”。兩者之間數據交換通路窄以及由此引發的高能耗兩大難題,在存儲與運算之間筑起了一道“內存墻”。
隨著數據的爆炸勢增長,內存墻對于計算速度的影響愈發顯現。為了減小內存墻的影響,提升內存帶寬一直是存儲芯片聚焦的關鍵問題。
長期以來,內存行業的價值主張在很大程度上始終以系統級需求為導向,已經突破了系統性能的當前極限。很明顯的一點是,內存性能的提升將出現拐點,因為越來越多人開始質疑是否能一直通過內存級的取舍(如功耗、散熱、占板空間等)來提高系統性能。
基于對先進技術和解決方案開展的研究,內存行業在新領域進行了更深入的探索。作為存儲器市場的重要組成部分,DRAM技術不斷地升級衍生。DRAM從2D向3D技術發展,其中HBM是主要代表產品。
HBM(High Bandwidth Memory,高帶寬內存)是一款新型的CPU/GPU 內存芯片,其實就是將很多個DDR芯片堆疊在一起后和GPU封裝在一起,實現大容量,高位寬的DDR組合陣列。
通過增加帶寬,擴展內存容量,讓更大的模型,更多的參數留在離核心計算更近的地方,從而減少內存和存儲解決方案帶來的延遲。
從技術角度看,HBM使DRAM從傳統2D轉變為立體3D,充分利用空間、縮小面積,契合半導體行業小型化、集成化的發展趨勢。HBM突破了內存容量與帶寬瓶頸,被視為新一代DRAM解決方案,業界認為這是DRAM通過存儲器層次結構的多樣化開辟一條新的道路,革命性提升DRAM的性能。
在內存領域,一場關于HBM的競賽已悄然打響。
為什么HBM很重要
自HBM首次宣布以來的十年里,已有2.5代標準進入市場。在此期間,創建、捕獲、復制和消耗的數據量從2010年的2 ZB增加到2020年的64.2 ZB,據Statista預測,這一數字將在2025年增長近三倍,達到181 ZB。
Synopsys的高級產品營銷經理Anika Malhotra表示:“2016年,HBM2將信令速率提高了一倍,達到2 Gbps,帶寬達到256 GB/s。兩年后,HBM2E出現了,實現了3.6 Gbps和460 GB/s的數據速率。性能需求在增加,高級工作負載對帶寬的需求也在增加,因為更高的內存帶寬是實現計算性能的關鍵因素。”
“除此之外,為了更快地處理所有這些數據,芯片設計也變得越來越復雜,通常需要專門的加速器、片內或封裝內存儲器及接口。HBM被視為將異構分布式處理推到一個完全不同水平的一種方式。”
“最初,高帶寬內存只是被圖形公司視為進化方向上的一步;但是后來網絡和數據中心意識到HBM可以為內存結構帶來更多的帶寬。所有推動數據中心采用HBM的動力在于更低延遲、更快訪問和更低功耗?!盡alhotra說?!巴ǔG闆r下,CPU為內存容量進行優化,而加速器和GPU為內存帶寬進行優化。但是隨著模型尺寸的指數增長,系統對容量和帶寬的需求同時在增長(即不會因為增加容量后,對帶寬需求降低)。我們看到更多的內存分層,包括支持對軟件可見的HBM + DDR,以及使用HBM作為DDR的軟件透明緩存。除了CPU和GPU, HBM也很受數據中心FPGA的歡迎。”
HBM最初的目的是替代GDDR等其他內存,由一些領先的半導體公司(特別是英偉達和AMD)推動。這些公司仍然在JEDEC工作組中大力推動其發展,英偉達是該工作組的主席,AMD是主要貢獻者之一。
Synopsys產品營銷經理Brett Murdock表示:“GPU目前有兩種選擇。一種是繼續使用GDDR,這種在SoC周圍會有大量的外設;另一種是使用HBM,可以讓用戶獲得更多的帶寬和更少的物理接口,但是整體成本相對更高。還有一點需要強調的是物理接口越少,功耗越低。所以使用GDDR非常耗電,而HBM非常節能。所以說到底,客戶真正想問的是花錢的首要任務是什么?對于HBM3,已經開始讓答案朝‘可能應該把錢花在HBM上’傾斜。”
盡管在最初推出時,HBM 2/2e僅面向AMD和Nvidia這兩家公司,但現在它已經擁有了龐大的用戶基礎。當HBM3最終被JEDEC批準時,這種增長有望大幅擴大。
HBM3性能未來可期
HBM3帶來的性能提升大家應該都比較清楚了,傳輸速率是HBM2的兩倍,達到了6.4Gb/s,使得每個堆棧最高可達819GB/s的帶寬。可用的獨立通道也從HBM2的8個擴充至16個,加上每個通道兩個偽通道的設計,HBM3可以說支持到32通道了,提供更優秀的時序來提升系統性能。
HBM3的TSV堆疊層數支持4-high、8-high和12-high,這倒是和HBM2e沒有什么差別。從SK海力士提供的機械結構圖來看,無論是8Hi還是12Hi,其封裝大小和高度都是一樣的,只不過是減小了中間堆疊的裸片高度。這僅僅是第一代HBM3,未來HBM3會擴展至16-high的TSV堆棧,單設備的內存密度范圍也將達到4GB至64GB,不過第一代HBM3設備的話,目前用到的依然是16GB的內存層。
此外,在散熱上,通過增加dummy bump、增加HBM3裸片大小并降低間隙高度,HBM3成功將溫度降低了25%,實現了更好的散熱性能。在7位ADC的支持下,HBM3的溫度傳感器也能以1℃的分辨率輸出0到127℃的溫度信息。
HBM未來潛力與演進方向
對于接下來的規劃策略和技術進步,業界旨在突破目前HBM在速度、密度、功耗、占板空間等方面的極限。
首先,為了打破速度極限,SK海力士正在評估提高引腳數據速率的傳統方法的利弊,以及超過1024個數據的I/O總線位寬,以實現更好的數據并行性和向后設計兼容性。簡單來講,即用最少的取舍獲得更高的帶寬性能。
針對更大數據集、訓練工作負載所需的更高內存密度要求,存儲廠商開始著手研究擴展Die堆疊層數和物理堆疊高度,以及增加核心Die密度以優化堆疊密度。
另一方面也在致力于提高功耗效率,通過評估從最低微結構級別到最高Die堆疊概念的內存結構和操作方案,最大限度地降低每帶寬擴展的絕對功耗。由于現有中介層光罩尺寸的物理限制以及支持處理單元和HBM Cube的其他相關技術,實現總內存Die尺寸最小化尤為重要。因此,行業廠商需要在不擴大現有物理尺寸的情況下增加存儲單元數量和功能,從而實現整體性能的飛躍。
但從產業發展歷程來看,完成上述任務的前提是:存儲廠商要與上下游生態系統合作伙伴攜手合作和開放協同,將HBM的使用范圍從現有系統擴展到潛在的下一代應用。
此外,新型HBM-PIM(存內計算)芯片將AI引擎引入每個存儲庫,從而將處理操作轉移到HBM。
在傳統架構下,數據從內存單元傳輸到計算單元需要的功耗是計算本身的約200倍,數據的搬運耗費的功耗遠大于計算,因此真正用于計算的能耗和時間占比很低,數據在存儲器與處理器之間的頻繁遷移帶來嚴重的傳輸功耗問題,稱為“功耗墻”。新型的內存旨在減輕在內存和處理器之間搬運數據的負擔。
寫在最后
過去幾年來,HBM產品帶寬增加了數倍,目前已接近或達到1TB/秒的里程碑節點。相較于同期內其他產品僅增加兩三倍的帶寬增速,HBM的快速發展歸功于存儲器制造商之間的競爭和比拼。
存儲器帶寬指單位時間內可以傳輸的數據量,要想增加帶寬,最簡單的方法是增加數據傳輸線路的數量。事實上,每個HBM由多達1024個數據引腳組成,HBM內部的數據傳輸路徑隨著每一代產品的發展而顯著增長。
回顧HBM的演進歷程,第一代HBM數據傳輸速率大概可達1Gbps;2016年推出的第二代產品HBM2,最高數據傳輸速率可達2Gbps;2018年,第三代產品HBM2E的最高數據傳輸速率已經可達3.6Gbps。如今,SK海力士和三星已研發出第四代產品HBM3,此后HBM3預計仍將持續發力,在數據傳輸速率上有更大的提升。
從性能來看,HBM無疑是出色的,其在數據傳輸的速率、帶寬以及密度上都有著巨大的優勢。不過,目前HBM仍主要應用于服務器、數據中心等應用領域,其最大的限制條件在于成本,對成本比較敏感的消費領域而言,HBM的使用門檻仍較高。
盡管HBM已更迭到了第四代,但HBM現在依舊處于相對早期的階段,其未來還有很長的一段路要走。
而可預見的是,隨著人工智能、機器學習、高性能計算、數據中心等應用市場的興起,內存產品設計的復雜性正在快速上升,并對帶寬提出了更高的要求,不斷上升的寬帶需求持續驅動HBM發展。市場調研機構Omdia預測,2025年HBM市場的總收入將達到25億美元。
在這個過程中,存儲巨頭持續發力、上下游廠商相繼入局,HBM將受到越來越多的關注與青睞。
