數據互聯在AI時代愈發重要,芯片之間及內部的互聯技術有哪些?
訓練和部署大模型需要強而有力的硬件支持,而這也是人工智能時代芯片成為核心技術的原因,因為大模型需要的算力歸根到底來自于芯片,同時人工智能市場的發展也極大地推動了芯片行業的市場規模,以及相關芯片技術的演進。
在給人工智能大模型提供足夠的算力用于訓練和部署的核心芯片技術中,數據互聯正在占據越來越重要的位置。芯片互聯越來越重要主要出于兩個原因:
首先,隨著大模型的參數規模和訓練數據容量快速提升,訓練和部署最新的大模型一定會使用分布式計算,因為單機幾乎不可能提供運行大模型的足夠算力。在分布式計算中,隨著分布式計算節點數量提升,理想情況下計算能力是隨著計算節點數量線性提升,但是現實中由于不同計算節點間的數據交互需要額外的開銷,因此只能接近而無法真正實現計算能力隨著計算節點增加而線性增加。換句話說,隨著模型規模越來越大,需要的分布式節點數量越來越多,對于這類分布式計算節點間的數據互聯需求(帶寬,延遲,成本等)也就越來越高,否則這類分布式計算中的數據互聯將會成為整體計算中的效率瓶頸。
其次,從芯片層面考慮,隨著摩爾定律越來越接近物理極限,目前以chiplet(芯片粒)為代表的高級封裝技術正在成為芯片性能提升的重要方式。使用chiplet可以把單個復雜的大芯片系統分成多個小的芯片粒,每個芯片粒都可以用最合適的工藝去單獨制造,因此確保復雜的芯片系統可以以合理的成本和良率來制造。對于人工智能大模型而言,用于訓練和部署的芯片的規模都非常大,因此chiplet將會成為支持人工智能芯片的核心技術。而在chiplet方案中,多個chiplet之間的數據通信也需要數據互聯技術,換句話說高帶寬、高密度的數據互聯將會成為使用chiplet搭建的人工智能加速芯片中的核心組件。
如上所述,在人工智能時代,數據互聯將會成為核心技術,而其中最關鍵同時也是未來將會有最多發展的數據互聯方案,就是用于分布式計算中的中長距離數據互聯,以及用于chiplet場景中的超短距離數據互聯。
超越 PCIe:AI 芯片廠商自研互聯技術
由于PCIe技術的發展速度跟不上時代需求,目前主流的AI芯片廠商都已經自研了互聯技術,其中較為代表的就是英偉達的NVLink和AMD的Infinity Fabric。
英偉達的NVLink
自2014年開始,英偉達在其GPU中引入了NVLink互聯技術。NVLink 是由 Nvidia 開發的一種高帶寬、低延遲的點對點數據傳輸通道。它的主要用途是連接 Nvidia GPU,或者 GPU 與 CPU 之間的通信,允許它們以高速率共享數據。這對于那些要求高數據吞吐量和低通信延遲的應用至關重要,如深度學習、科學計算和大規模模擬。過去十年間,NVLink已成為英偉達GPU芯片的核心技術及其生態系統的重要組成部分。
讓我們再來細細回顧下NVLink這一技術的發展歷程。2014年,NVLink 1.0發布并在P100 GPU芯片之間實現,兩個GPU之間有四個NVLink,每個鏈路由八個通道組成,每個通道的速度為20Gb/s,系2統整體雙向帶寬為160GB/s(20*8*4*2)/8=160GB/s),是PCle3x16的五倍;
2017年英偉達推出了第二代NVLink,兩個V100 GPU芯片之間通過六個NVLink 2.0連接,每個鏈路也是由八個通道組成,不過每個通道的速度提升至為25Gb/s,從而實現300GB/s的雙向系統帶寬(25*8*6*2)/8=300GB/s),幾乎是NVLink1.0的兩倍。此外,為了實現八個GPU之間的完全互連,Nvidia引入了NVSwitch技術。NVSwitch1.0有18個端口,每個端口的帶寬為50GB/s,總帶寬為900GB/s。每個NVSwitch保留兩個用于連接CPU的端口。通過使用6個NVSwitch,可以在8個GPUV100芯片之間建立一個全連接的網絡。
2020年,推出NVLink 3.0技術。它通過12個NVLink連接連接兩個GPU A100芯片,每個鏈路由四個通道組成。每個通道以50Gb/s的速度運行,從而產生600GB/s的雙向系統帶寬,是NVLink2.0的兩倍。隨著NVLink數量的增加,NVSwitch上的端口數量也增加到36個,每個端口的運行速度為50GB/s。
2022年,NVLink技術升級到第四代,允許兩個GPU H100芯片通過18條NVLink鏈路互連。每個鏈路由2個通道組成,每個通道支持100Gb/s(PAM4)的速度,從而使雙向總帶寬增加到900GB/s。NVSwitch也升級到了第三代,每個NVSwitch支持64個端口,每個端口的運行速度為 50GB/s。
2024年,隨著英偉達全新Blackwell架構的發布,NVLink 5.0也隨之而來。NVLink 5.0以每秒100 GB的速度在處理器之間移動數據。每個 GPU 有 18 個 NVLink 連接,Blackwell GPU 將為其他 GPU 或 Hopper CPU 提供每秒 1.8 TB 的總帶寬,這是 NVLink 4.0 帶寬的兩倍,是行業標準 PCIe Gen5 總線帶寬的 14 倍。NVSwitch升級到了第四代,每個NVSwitch支持144個NVLink 端口,無阻塞交換容量為 14.4TB/s。
NVLink設計之初,就是為了解決傳統的PCI Express (PCIe) 總線在處理高性能計算任務時帶寬不足的問題。從下面兩幅圖的對比中,可以發現,從單通道速度的角度來看,NVLink的速度通常是同代PCle的兩倍左右。總帶寬的優勢更加明顯,NVLink提供的總帶寬約為PCle的五倍。
除了NVLink,另外一個值得一提的互聯技術是InfiniBand。英偉達收購的Mellanox在InfiniBand領域也處于佼佼者。自收購Mellanox以來,NVIDIA也開始將NVLink技術與InfiniBand(IB)技術相結合,推出新一代NVSwitch芯片和具有SHARP功能的交換機,針對外部GPU服務器網絡進行了優化。
InfiniBand是一種開放標準的網絡互連技術,具有高帶寬、低延遲、高可靠性的特點。該技術由 IBTA(InfiniBand 貿易聯盟)定義。該技術廣泛應用于超級計算機集群領域。同時,隨著人工智能的興起,它也是GPU服務器的首選網絡互連技術。由于 RDMA(遠程直接內存訪問)等功能,InfiniBand 在人工智能等數據密集型任務中通常優于以太網。據Dell'Oro 估計,約90%的AI部署都是使用Nvidia/Mellanox的InfiniBand,而不是以太網。這些部署將 Nvidia 的網絡收入推至每年100億美元。
傳奇CPU設計師兼Tenstorrent首席執行官 Jim Keller是開放標準的堅定支持者,他建議 Nvidia應該在基于 Blackwell 的GB200 GPU 中使用以太網協議芯片到芯片連接,而不是專有的NVLink,背后的主要原因是,這可能會使軟件移植到其他硬件平臺變得更加復雜。而凱勒認為,使用以太網協議可以為英偉達及其硬件用戶節省大量資金。
AMD的Infinity Fabric
與英偉達的NVLink相似,AMD則推出了其Infinity Fabric技術,支持芯片間、芯片對芯片,以及即將推出的節點對節點的數據傳輸。Infinity Fabric是AMD在其“Zen”微架構中引入的一個關鍵特性,旨在提高整體系統性能,特別是在多核心處理器和數據中心環境中。
Infinity Fabric由兩部分組成:數據布線(Data Fabric)和控制布線(Control Fabric)。數據布線用于處理器內部和處理器之間的數據傳輸,而控制布線則負責處理器的功耗、時鐘和安全性等方面的管理。Infinity Fabric的主要特點包括:1)高效率:Infinity Fabric設計用于提供高效率的數據傳輸,支持多個設備之間的高速通信;2)模塊化:Infinity Fabric支持AMD的小芯片(chiplet)架構,允許不同功能的芯片模塊通過高速互連進行組合;3)內存共享:Infinity Fabric支持CPU和GPU之間的內存共享,有助于提高異構計算的效率;4)擴展性:Infinity Fabric的設計允許它隨著技術進步和需求增長而擴展。
AMD最新的AI加速器Instinct MI300X 平臺,就通過第四代AMD Infinity Fabric鏈路將 8 個完全連接的 MI300X GPU OAM 模塊集成到行業標準 OCP 設計中,為低延遲 AI 處理提供高達 1.5TB HBM3 容量。第四代 Infinity Fabric支持每通道高達 32Gbps,每鏈路產生 128GB/s 的雙向帶寬。
不同于英偉達NVLink僅限于內部使用,AMD已經開始向新合作伙伴開放其 Infinity Fabric 生態系統。在去年年末AMD MI3000的發布會上,Broadcom宣布其下一代PCIe交換機將支持XGMI/Infinity Fabric。不僅如此,AMD還希望Arista、博通、Cisco等合作伙伴能推出適用于 Infinity Fabric 等產品的交換機,能夠方便MI3000在單一系統外實現芯片間通信。這類似于英偉達的NVSwitch。
英特爾:以太網的堅實擁護者
英特爾的用于生成式AI的Gaudi AI芯片則一直沿用傳統的以太網互聯技術。Gaudi 2 每個芯片使用了24 個 100Gb以太網鏈路;Gaudi 3也使用了24 個 200 Gbps 以太網 RDMA NIC,但是他們將這些鏈路的帶寬增加了一倍,達到 200Gb/秒,使芯片的外部以太網 I/O 總帶寬達到 8.4TB/秒。
在近日的intel vision峰會上,英特爾還宣布正在開發一款用于超以太網聯盟(UEC)兼容網絡的 AI NIC ASIC 以及一款 AI NIC 小芯片,這些創新的AI高速互聯技術(AI Fabrics)將用于其未來的 XPU 和 Gaudi 3 處理器。這些創新旨在革新可大規模縱向(scale-up)和橫向(scale-out)擴展的AI高速互聯技術。
一直以來,英特爾都希望通過采用純以太網交換機來贏得那些不想投資 InfiniBand 等專有/替代互連技術的客戶。InfiniBand非常適合那些運行少量非常大的工作負載(例如 GPT3 或數字孿生)的用戶。但在更加動態的超大規模和云環境中,以太網通常是首選。Nvidia 最新的 Quantum InfiniBand 交換機的最高速度為 51.2 Tb/s,端口為 400 Gb/s。相比之下,以太網交換在近兩年前就達到了 51.2 Tb/s,并可支持 800 Gb/s 的端口速度。
雖然InfiniBand在很多情況下表現都不錯,但它也有缺點,比如只能在特定范圍內使用,而且成本也不低,將整個網絡升級到 InfiniBand 需要大量投資。相比之下,以太網因為兼容性強,成本適中,以及能夠勝任大多數工作負載,所以在網絡技術領域里一直很受歡迎,建立了一個龐大的“以太網生態”。
Dell'Oro 預計 InfiniBand將在可預見的未來保持其在 AI 交換領域的領先地位,但該集團預測在云和超大規模數據中心運營商的推動下,以太網將取得大幅增長,到2027 年大約將占據20%的市場份額。
不僅是英特爾,在2023年的AI Day上,AMD也表示將重點支持以太網,特別是超級以太網聯盟。雖然 Infinity Fabric提供了GPU之間的一致互連,但AMD正在推廣以太網作為其首選的 GPU 到 GPU網絡。
此外,英特爾還提出了一種開放性互聯協議Compute Express Link(CXL)。關于CXL互聯技術,業界看法不一。英偉達的GPU一向單打獨斗,并不支持CXL;AMD透露其MI300A會支持CXL。目前來看,像三星、SK海力士、美光等存儲廠商更加青睞于CXL。
互連在先進封裝中的重要性
首先,需要注意的是,互連技術是封裝中關鍵且必要的部分。芯片通過封裝互連以接收電力、交換信號并最終進行操作。由于半導體產品的速度、密度和功能根據互連方式而變化,因此互連方法也在不斷變化和發展。
除了開發各種工藝以在晶圓廠實現精細圖案外,還全面努力推進封裝工藝中的互連技術。因此,開發了以下四種類型的互連技術:引線鍵合、倒裝芯片鍵合、硅通孔 (TSV) 鍵合以及小芯片混合鍵合。
引線鍵合
引線鍵合是第一種開發的互連方法。通常,具有良好電性能的材料(例如金、銀和銅)被用作連接芯片和基板的導線。這是最具成本效益且可靠的互連方法,但由于其電氣路徑較長,因此不適合需要高速操作的較新設備。因此,這種方法被用于不需要快速操作的移動設備中使用的移動 DRAM 和 NAND 芯片。
倒裝芯片鍵合
倒裝芯片接合 克服了引線鍵合的缺點。其電氣路徑的長度是引線鍵合的十分之幾,使其適合高速操作。與在芯片級執行的引線鍵合相比,在晶圓級進行處理的倒裝芯片鍵合還提供了卓越的生產率。因此,它被廣泛應用于CPU、GPU和高速DRAM芯片的封裝。此外,由于可以在芯片的整個側面形成凸塊,因此可以比引線鍵合擁有更多的輸入和輸出 (I/O),從而有可能提供更高的數據處理速度。然而,倒裝芯片接合也有其自身的缺點。首先,難以進行多芯片堆疊,這對于需要高密度的存儲產品來說是不利的。此外,盡管倒裝芯片鍵合可以比引線鍵合連接更多的 I/O,和有機 PCB 間距阻止連接更多數量的 I/O。為了克服這些限制,開發了 TSV 鍵合技術。
硅通孔 (TSV) 鍵合
TSV不采用傳統的布線方法來連接芯片與芯片,而是通過在芯片上鉆孔并填充金屬等導電材料以容納電極來垂直連接芯片。制作帶有TSV的晶圓后,通過封裝在其頂部和底部形成微凸塊,然后連接這些凸塊。由于 TSV 允許凸塊垂直連接,因此可以實現多芯片堆疊。最初,使用 TSV 接合的堆棧有四層,后來增加到八層。最近,一項技術使得堆疊 12 層成為可能,并于 2023 年 4 月SK hynix 開發了其 12 層 HBM3。雖然 TSV 倒裝芯片接合方法通常使用基于熱壓的非導電薄膜 (TC-NCF),但 SK hynix 使用 MR-MUF 4 工藝,可以減少堆疊壓力并實現自對準。5這些特性使 SK hynix 能夠開發出世界上第一個 12 層 HBM3。
如上所述,引線、倒裝芯片和 TSV 鍵合在封裝工藝的各個領域中發揮著各自的作用。盡管如此,最近出現了一種新的互連技術,稱為銅對銅直接鍵合,它是混合鍵合的一種。
與小芯片的混合鍵合
術語“混合”用于表示同時形成兩種類型的界面結合6。界面結合的兩種類型是:氧化物界面之間的結合和銅之間的結合。這項技術并不是新開發的技術,但多年來已經用于 CMOS 圖像傳感器的大規模生產。然而,由于小芯片的使用增加,它最近引起了更多關注。Chiplet技術將各個芯片按功能分離,然后通過封裝將它們重新連接起來,在單個芯片上實現多種功能。
盡管小芯片的功能是該技術的一個明顯優勢,但采用它們的主要原因是成本效益。當所有功能都在單個芯片上實現時,芯片尺寸會增加,并且不可避免地導致晶圓生產過程中良率的損失。此外,雖然芯片的某些區域可能需要昂貴且復雜的技術,但其他區域可以使用更便宜的傳統 技術來完成。因此,由于芯片無法分離,制造工藝變得昂貴,因此即使只有很小的面積需要精細技術,也要將精細技術應用于整個芯片。然而,小芯片技術能夠分離芯片功能,從而可以使用先進或傳統的制造技術,從而節省成本。
雖然chiplet技術的概念已經存在十多年了,但由于缺乏能夠互連芯片的封裝技術的發展,它并沒有被廣泛采用。然而,芯片到晶圓 (C2W) 混合鍵合的最新進展顯著加速了小芯片技術的采用。C2W 混合鍵合具有多種優勢。首先,它允許無焊料鍵合,從而減少鍵合層的厚度、縮短電氣路徑并降低電阻。因此,小芯片可以高速運行而無需任何妥協——就像單個芯片一樣。其次,通過直接將銅與銅接合,可以顯著減小凸塊上的間距。目前,使用焊料時很難實現 10 微米 (μm) 或更小的凸塊間距。然而,銅對銅直接鍵合可以將間距減小到小于一微米,從而提高芯片設計的靈活性。第三,它提供了先進的散熱功能,這一封裝功能在未來只會繼續變得越來越重要。最后,上述的薄粘合層和細間距影響了封裝的形狀因數,因此可以大大減小封裝的尺寸。
然而,與其他鍵合技術一樣,混合鍵合仍然需要克服挑戰。為了確保穩定的質量,必須在納米尺度上改進顆粒控制,而控制粘合層的平整度仍然是一個主要障礙。同時,SK海力士計劃使用最高功率的封裝解決方案來開發混合鍵合,以便將其應用于未來的HBM產品。
