AI迸發高數據存儲需求，這些存儲技術大放光彩

2024-06-20 來源：賢集網

3158

人工智能AI吹起新一輪科技革命浪潮，衍生出諸多新興應用，龐大的需求驅動存儲技術更迭。隨著AI模型和數據集不斷擴大，高效、高性能的存儲顯得愈發關鍵，符合AI模型需求的DDR、GDDR、HBM技術從幕后走向臺前，并隨著AI發展而不斷推陳出新。

DRAM，走向3D

1966年的秋天，IBM研究中心的Robert H. Dennard發明了動態隨機存取存儲器（DRAM），幾十年后，這份偉大的成就為半導體行業締造了一個影響巨大且市場規模超千億美元的產業帝國。

也是在這數十年間，摩爾定律一直是業界崇尚的黃金法則，也一直是半導體性能和成本的驅動因素。

早前的DRAM可以滿足業界需求，但隨著摩爾定律推進速度放緩，DRAM技術工藝也逐漸步入了瓶頸期。

從技術角度上看，隨著晶體管尺寸越來越小，芯片上集成的晶體管就越多，這意味著一片芯片能實現更高的內存容量。目前DRAM芯片工藝已經突破到了10nm級別。

雖然10nm還不是DRAM的最后極限，但多年來隨著DRAM制程節點不斷縮小，工藝完整性、成本、電容器漏電和干擾、傳感裕度等方面的挑戰愈發明顯，要在更小的空間內實現穩定的電荷存儲和讀寫操作變得日益困難。

據Tech Insights分析，通過增高電容器減小面積以提高位密度（即進一步減小單位存儲單元面積）的方法即將變得不可行。

上圖顯示，半導體行業預計能夠在單位存儲單元面積達到約10.4E-4μm2前（也就是大約2025年）維持2D DRAM架構。之后，空間不足將成為問題，這將提升對垂直架構，也就是3D DRAM的需求。

另一方面，隨著數據量爆炸性增長，尤其是云計算、人工智能、大數據分析等領域對高速、大容量、低延遲內存的需求持續攀升，市場對更高密度、更低功耗、更大帶寬的DRAM產品有著強烈需求。

在市場需求和技術創新的驅動下，3D DRAM成為了業界迫切想突破DRAM工藝更高極限的新路徑。

探索GDDR過往，GDDR7已來

GDDR英文全稱Graphics Double Data Rate DRAM，是專為圖形處理而設計的高性能DDR存儲器規格，簡稱為顯存。顯存最關鍵的應用領域便是顯卡，后者應用于新媒體和電腦游戲、炒賣加密貨幣、AI強化學習（如ChatGPT、Sora）等領域。而用于顯卡的DRAM，需要具備兩個關鍵的特性，高密度尋址能力和配備的高性能，早期因主要考慮兼容CPU，顯卡大多采用DDR內存，不過近年隨著圖像處理需求的增加，顯卡逐漸轉向專為GPU設計的GDDR。

業界指出，GDDR有專屬的工作頻率、時鐘頻率、電壓，因此與市面上標準的DDR存儲器有所差異，與普通DDR內存不同，且不能共用。一般它比主內存中使用的普通DDR存儲器時鐘頻率更高，發熱量更小，具有更高的頻率和帶寬，所以更適用于中高端顯卡。

目前，GDDR已成為人工智能、大數據應用領域中最熱門的內存芯片之一。從類型上看，GDDR包括GDDR2、GDDR3、GDDR4、GDDR5、GDDR5X、GDDR6和GDDR6X等，GDDR5和GDDR6是高端顯卡上常見的顯存類型。其實，前兩代的GDDR和GDDR2并沒有得到GPU廠商的大規模應用，但隨著性能的提升，第三代GDDR3數據傳輸速率最高達到2.5GHz，第四代GDDR4雖然性能有了進一步變化，但由于下游廠商對GDDR4標準意見不一，市場度接受度不高。為此GDDR3成為當時市場主流技術，包括英偉達和AMD等頭部GPU廠商都使用的GDDR3。

從2008年后，產品更新至GDDR5，因具備更高的時鐘頻率和數據傳輸速率成為高性能顯卡的標配，GDDR5與GDDR4、GDDR3一樣，皆是基于DDR3技術開發而來。據悉，GDDR5之后，英偉達與美光共同合作推出GDDR5X半代產品，應用于前者的高端顯卡。

據悉，英偉達是首家在其RTX 30 系列GPU中選擇GDDR6X內存的供應商，至少是高端GPU。GDDR6X將每引腳帶寬以14Gbps增加到21Gbps，將總帶寬增加到1008GB/s，甚至超過3072位寬的HBM2堆棧。值得一提是，GDDR6X還引入了PAM4（Pulse Amplitude Modulation 4）信號技術，顯著提高了數據傳輸速率。

目前，今年來，美光、三星和SK海力士均表示已開始提供GDDR7內存樣品。具體來看，三星GDDR7芯片通過首次應用PAM3信號，能夠在僅1.1 V的DRAM電壓下實現32 Gbps的速度，這超過了JEDEC的GDDR7規范中的1.2 V；SK海力士與其前身GDDR6相比，最新的GDDR7產品提供的最大帶寬達到160GB/s，是其上一代產品（GDDR6位80GB/s）的兩倍，功耗效率提升了40%，內存密度提升1.5倍；美光GDDR7具有28GB/s和32Gb/s兩種速度，采用其1β (1-beta) DRAM 技術制造，其效率比GDDR6 提高了50%。

HBM3成為主力

作為存儲領域三大巨頭——三星、海力士和美光是HBM3e技術的引領者，HBM3e的高熱需求推動三大存儲巨頭的技術迭代。其中，美光利用1β（1-beta）技術、先進的硅通孔（TSV）技術和優化的封裝設計，推出了其HBM3產品。這些技術的結合使得美光的HBM3產品在性能、功耗和散熱方面都展現出卓越的表現。1β技術可以提升存儲器的能效比，降低功耗；而先進的硅通孔（TSV）技術能提高封裝密度，降低信號傳輸延遲，從而提高產品的性能。此外，優化的封裝設計也有助于提高產品的散熱性能，保證其長期穩定運行。

三星采用先進的熱壓非導電薄膜技術，使得HBM3e 12層和HBM3 8層堆疊產品的高度保持一致，以滿足當前HBM封裝的要求。不僅保持了產品高度的一致性，還提高了產品的垂直密度。具體來說，HBM3e產品的垂直密度比上一代的產品提高了20%以上。此外，三星的熱壓非導電薄膜技術還可以通過允許在芯片之間使用不同尺寸的凸塊（bump）來改善HBM的熱性能，從而提高產品的整體性能。

簡而言之，HBM高帶寬存儲的爆火需求，對于整個行業來說既是機遇也是挑戰。隨著人工智能、大數據、云計算等技術的不斷發展，HBM高帶寬存儲的需求也在不斷增加。對于存儲廠商來說，這是一個巨大的市場機遇。然而，這也意味著廠商需要不斷提升技術水平，以滿足市場需求。同時，激烈的市場競爭也給廠商帶來了挑戰。因此，存儲廠商需要不斷創新，提高產品質量和性能，以獲得更多的市場份額。

近存方案，更大的SRAM和HBM

對于我們說的存儲墻而言，其實在SRAM上并不那么明顯，這種最接近處理單元的存儲，常被用作高速緩存，不僅讀寫速度極快，能效比更是遠超DRAM。但SRAM相對其他存儲而言，存儲密度最低，成本卻不低。所以盡管現如今雖然更大的SRAM設計越來越普遍，但容量離DRAM還差得很遠。

但這并不代表這樣的設計沒有人嘗試，對于愿意花大成本的廠商而言，還是很高效的一條技術路線。以特斯拉為例，其Tesla Dojo超算系統的自研芯片D1就采用了超大SRAM的技術路線。Dojo在其網格設計中采用了超快且平均分布的SRAM。

單個D1核心擁有1.25MB的SRAM，加載速度達到400GB/s，存儲速度達到270GB/s。單個D1芯片的SRAM緩存達到440MB。簡單來說，Dojo可以用遠超L2緩存級別的SRAM容量，實現L1緩存級別的帶寬和延遲。

當然了，這樣的設計注定代表了大量的成本投入。在特斯拉2023財年Q4的財報會議上，馬斯克強調他們做了英偉達和Dojo的兩手準備。Dojo作為長遠計劃，因為最終的回報可能會值回現在的投入，但他也強調這確實不是什么高收益的項目。

所以對于已有的計算架構來說，走近存路線，提高DRAM的性能是最為適合的，比如HBM。HBM作為主流的近存高帶寬方案，已經被廣泛應用在新一代的AI芯片、GPU上。以HBM3e為例，1.2TB/s的超大帶寬足以滿足現如今絕大多數AI芯片的數據傳輸，未來的HBM4更是承諾1.5TB/s到2TB/s的帶寬。

HBM的方案象征了目前DRAM堆疊的集大成技術，但目前還是存在不少問題，比如更高的成本以及對產能的要求。在現如今的AI需求驅動下，新發布的芯片很難再采用HBM設計的同時，保證大批量量產，無論是HBM產能還是CoWoS產能都處于滿載的階段，而且與制造廠商強綁定。可恰恰存儲帶寬決定了AI應用的速度，所以在HBM方案量產困難成本高昂的前提下，即便是英特爾和AMD這樣的廠商也經不起這樣揮霍，不少其他廠商更是選擇了看向存內計算。

存內計算與處理，需要解決算力與存儲雙瓶頸

為了解決AI計算中數據存取的效率問題，把數據處理和篩選的工作放在存儲端，就能極大地降低數據移動的能耗。以三星的PIM技術為例，其將關鍵的算法內核放在內存中的PCU模塊中執行，相比已有的HBM方案，PIM-HBM可以將能耗降低70%以上。而且不僅是HBM，PIM也可以集成到LPDDR、GDDR等存儲方案中。

不過存內處理的方案只解決了功耗和效率的問題，并沒有對計算性能和存儲性能帶來任何大幅提升。至于將主要計算工作交給存內的計算單元，就是存內計算的目標了，比如不少廠商嘗試的模擬存內計算（AIMC）。但這類方案實現大規模并行化運算的同時，還是需要昂貴的數模轉換器，以及逃不開的錯誤檢測。至于數字存內計算方案，一定程度上規避了模擬存內計算的缺陷，但還是犧牲了一些面積效率。對于一些大模型AI應用而言，單芯片的存儲容量擴展性堪憂。

所以數模混合成了新的研究方向，比如中科院微電子研究所就在今年的ISSCC大會上發表了數模混合存算一體芯片的論文，其采用模擬方案來進行陣列內位乘法計算，利用數字方案來進行陣列外多位移位累加計算，從而達到整體的高能量效率和面積效率，INT8精度下的計算峰值能效可達111.17TFLOPS/W。

除此之外，還有存間計算的廠商，將計算單元放在不同的SRAM之間。以存間計算初創公司Untether AI為例，他們以打造存內推理加速器AI為主，通過將計算單元放在兩個存儲單元之間，其IC可以提供更高能效比的推理性能。比如他們在打造的第二代IC，speedAI240，集成了1400個定制RISC-V核心，可以提供至高2PetaFlops的推理性能，能耗比最高可達30 TFLOPS/W。

除了各種存算一體架構的算力瓶頸外，存儲本身也需要做出突破。以三星的PIM為例，其雖然在DRAM上引入了PIM計算單元，但并未對DRAM本身的帶寬的性能帶來提升，這就造成了在存算一體的架構中，依然存在計算單元與存儲器性能不平衡的問題，各種其他類型的存儲器，包括MRAM、PCM、RRAM，除了量產問題外，寫入速度和功耗的問題也還未實現突破。

西安紫光國芯為此提出了一種3D異質集成DRAM架構，邏輯晶圓通過3D混合鍵合工藝堆疊至SeDRAM晶圓上，進一步提升了訪存帶寬，降低了單位比特能耗，還能實現超大容量。從去年紫光國芯在VLSI 2023發布的論文來看，其SeDRAM已經發展至新一代多層陣列架構。結合低溫混合鍵合技術和mini-TSV堆疊技術，可以實現135Gbps/Gbit的帶寬和0.66pJ/bit的能效。

寫在最后

其實無論是哪一種突破存儲墻瓶頸的方式，最終都很難逃脫復雜工藝帶來的挑戰。行業遲遲不愿普及相關的存算技術，還是在制造工藝上沒有達到適合普及的標準，無論是良率、成本還是所需的設計、制造流水線變化。已經占據主導地位的計算芯片廠商，也不會選擇非得和存儲綁在一條船上，但行業必然會朝這個方向發展。

登入后，方可留言>>

行業動態

華為“四芯片封裝”專利曝光，或用于下一代 AI 芯片昇騰 910D

第一季度全球智能手機產量達2.89億部

因存在安全隱患，羅馬仕召回491745臺移動電源

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產