解讀全球首臺計算能力超2百億億次的超算以及未來超算發展方向
當地時間6月22日,英特爾(Intel)官方宣布,美國能源部阿拉貢國家實驗室已經完成基于英特爾CPU及GPU的新一代超算“Aurora”的安裝工作,今年晚些時候上線后將提供超過2 exaflops(2百億億次計算每秒)的FP64浮點性能,將超越隸屬于美國能源部橡樹嶺國家實驗室的“Frontier”,有望成為全球第一臺理論峰值性能超過2 exaflops的超級計算機。
據介紹,Aurora 超級計算機由英特爾、惠普企業 (HPE) 和美國能源部 (DOE) 合作,旨在大規模釋放高性能計算 (HPC) 三大支柱的潛力:模擬、數據分析和人工智能 (AI)。該系統配備了所有 10624 個刀片服務器,每個刀片由兩個英特爾Xeon Max 系列 CPU(至強Max 9480) 和六個英特爾 Max 系列 GPU 組成,使得Aurora 超級計算機總共擁有 63744 個英特爾數據中心 Max 系列 GPU 和21248 個英特爾Xeon Max 系列CPU。
英特爾Xeon Max CPU中的 56 個內核均為 P 核,可提供 112 個線程和 350W TDP。它采用基于 EMIB 的設計,分為四個集群。它還具有 64 GB 的 HBM2e 內存,分為 4 個 16 GB 的集群,總內存帶寬為 1 TB / s,每個內核的 HBM 都超過 1 GB。在性能方面,英特爾稱,Xeon Max配備的高帶寬內存足以滿足最常見的HPC工作負載,與舊的英特爾至強 8380 系列處理器或 AMD EPYC 7773X 相比,可在某些工作負載中提供接近 5 倍的性能。
英特爾Xeon Max CPU中還包含 20 個加速引擎,主要是用于 AVX-512、AMX、DSA 和英特爾 DL Boost 工作負載。據稱,英特爾在 MLPerf DeepCAM 訓練中的性能比 AMD 7763 提升了 3.6 倍,比 NVIDIA 的 A100 提升了 1.2 倍。
至于英特爾MAX GPU實際上就是之前的Ponte Vecchio芯片,使用了英特爾有史以來最先進的封裝技術,擁有超過1000億個晶體管。其總共有63個模塊,包括了16個Xe-HPG架構的計算芯片、8個Rambo cache芯片、2個Xe基礎芯片、11個EMIB連接芯片、2個Xe Link I/O芯片和8個HBM芯片、以及16個負責TDP輸出的模塊,通過EMIB與Foveros 3D封裝中整合在一起。其中最強的MAX 1550配備了英特爾性能最高的OAM模塊,擁有128個Xe核心和128GB的HBM2e內存,TDP為600W。
此外,Aurora 系統還配備了10.9PB的傲騰持久內存。同時正如前面所介紹的,每個Xeon Max CPU內還封裝了64 GB 的 HBM2e 內存,這也意味著21248 個英特爾Xeon Max 系列CPU內的 HBM2e高帶寬內存容量達到了1.36PB;每個 Max GPU內最高還封裝了128 GB 的 HBM2e 內存, 63744個Max GPU內的HBM2e內存容量達到了8.16PB。三者合計達20.42PB內存。存儲方面,Aurora 集成了超過 1024 個存儲節點(使用 DAOS,英特爾的分布式異步對象存儲技術),并利用HPE Slingshot高性能結構,以每秒31TB的總帶寬提供220PB的總的存儲容量。
以上所有的CPU、GPU、內存及存儲等組件都將通過英特爾的oneAPI軟件互相鏈接。借助 oneAPI,開發者對整個系統中的節點進行編程,無需更改代碼,應用程序可以有效在 CPU 和 GPU 上運行,為開發人員提供無縫系統集成。
英特爾表示,Aurora將充分利用英特爾Max系列GPU和CPU產品系列的強大功能。Max系列GPU的早期結果旨在滿足動態和新興HPC和AI工作負載的需求,在現實世界的科學和工程工作負載上顯示出領先的性能,在OpenMC上顯示出高達AMD MI250X GPU性能的2倍,以及接近線性擴展到數百個節點。在許多現實世界的HPC工作負載(如地球系統建模、能源和制造)中,Intel Xeon Max系列CPU比競爭對手具有40%的性能優勢。
目前世界第一的超級計算機是隸屬于美國能源部橡樹嶺國家實驗室的“Frontier”,最大性能每秒1.19百億億次浮點計算,峰值性能可達1.68百億億次,其采用的是正是AMD EPYC 7A53 64核心處理器,以及Instinct MI250X GPU加速器。隨著“Aurora”的安裝工作完成,今年晚些時候上線后將可提供超過2 exaflops的性能,成為全球最強的超級計算機。
復合類新產品出現
AMD、英特爾和英偉達三巨頭,業已推出多款整合“XPU”的產品。那么,這會是超算或企業級處理器市場未來的發展趨勢嗎?
在2022年的英特爾投資者大會上,英特爾展示了一個全新針對AI和HPC市場研發的、代號為“Falcon Shores”的全新芯片。它和英特爾現有的CPU、GPU有所不同,英特爾稱其為“XPU”。所謂“X”,是“混合”的意思,英特爾宣稱整個Falcon Shores將擁有可擴展的、可根據需求配置的CPU和GPU部分。在英特爾的計劃中,這種復合類型的XPU,將擁有比現在產品高5倍的每瓦特性能、內存容量和內存帶寬。
根據英特爾規劃,Falcon Shores將在2024年推出,采用英特爾的20A或者18A工藝。英特爾將采用Chiplet技術,以不同的Tile也就是功能片的形式,來實現對CPU、GPU以及其他加速模塊的靈活配置,以更大程度地貼近客戶的需求。
隨后AMD在CES 2023上發布了全新的數據中心處理器Instinct MI300。作為面向下一代數據中心的超大規模處理器,它包含了13個Chiplet芯片和高達1460億晶體管,是AMD有史以來推出的最強大的芯片。
在AMD的官方介紹中,Instinct MI300將在2023年下半年推出,整體架構包括24個Zen 4核心的CPU和CNDA 3架構的GPU,超大容量Infinity Cache,還有高達8192bit、128GB容量的HBM3超高帶寬內存。此外它還支持第四代Infinity Fabric總線、CXL 3.0總線、統一內存架構以及全新的數據格式等。AMD官方宣稱對比上代產品的性能提升高達8倍,可以滿足百億億次計算的需求。
AMD的產品實際上是專為AI或者HPC場合設計,它將CPU、GPU以及一些加速器融合在一起,希望能夠帶來效能、性能方面的飛躍式提升。與此類似的是,英偉達在這方面也做出了自己的努力。不過它并不是依靠Chiplet或者其他的技術,而是直接將兩個全新的獨立芯片——Hopper GPU和Grace CPU布置在一個PCB上,并采用自家的NVLink實現芯片到芯片的高帶寬互聯(高達900GB/s),同時配合了高帶寬的HBM3存儲和LPDDR5X等。英偉達宣稱,在高帶寬IO以及NVLink網絡的支撐下,這款名為NVIDIA Grace Hopper Superchip的芯片(將在2023年上半年發布),將為運行TB級別數據的應用程序帶來高達10倍以上的性能提升。
顯然,隨著AMD、英特爾和英偉達全新一代產品的發布,下一代超算的形態可能會發生明顯的變化。現在我們看到超算Top 500排行榜上,產品CPU、GPU的型號都是很明確的,比如AMD EPYC處理器、英特爾Xeon某型號,GPU則是英偉達H100或者其他型號等。但是下一代的超算,如果采用Falcon Shores或者Instinct MI300的話,那么CPU和GPU的具體型號就可能不存在了,統計時就只能標注CPU或者GPU的核心數量了。
走向DSA化的超算
從多款產品的發展情況來看,集合CPU和GPU的力量在單一芯片上,并且擁有諸如統一內存尋址這樣的特性成為趨勢。相比傳統的PCIe總線連接CPU和GPU而言,采用Chiplet技術或者其他的總線連接技術,能夠極大地緩解數據傳輸中的帶寬瓶頸。
當然,數據在超算中的不斷搬運、存儲帶來的能耗或者對效能的影響是行業所關注的一個方面,AMD、英偉達和英特爾正在這方面持續努力。而另一方面的問題,可能更值得我們去思考,那就是為什么三大廠商都開始利用Chiplet技術(或者類似的設計)將CPU和GPU集成在一起?在CPU向多核形態發展之后,下一步是什么?
這樣的趨勢在桌面PC上可能剛剛開始出現,比如我們的CPU核心才剛開始有最多32個,即使線程撕裂者這樣本來面向給服務器市場的處理器,其核心數量也多在64~96個。而在異構類型的超級計算機沒有廣泛普及之前,一整套超算往往會有數萬到數十萬個CPU。如此多的CPU在很大程度上極大地提升了超算的性能,但是隨著CPU數量不斷提升,新的問題出現了。
一方面是CPU數量上升到一定程度后,邊際效應開始顯現,繼續增加CPU數量帶來的性能提升不再是線性提升。這涉及很多問題,比如CPU中計算單元數量相對較少、超多的CPU核心在編程上存在困難等。
另一方面,更多的CPU帶來了性能功耗比的下降,從而導致超算功耗變得越來越大,甚至難以控制。與之相應的是超算本身的功耗、散熱所需功耗等疊加起來,使得相應產品的制造難度和使用成本變得難以控制。
超算中心需要哪些芯片?
先來看國內,2010年,中國的“天河一號”位居全球超級計算機500強排行榜榜首。其思路采用“CPU+GPU”的設計思路,結合了大約7000個英偉達GPU和14000個英特爾CPU,將GPU(圖形芯片)用于超級計算機,起到了“CPU加速器”的作用。
盡管“天河”的主要部件仍來自英特爾與英偉達兩個美國制造商,但互聯芯片則完全是中國自主研發,“天河”安裝有由中國自主研發的“飛騰1000”芯片,部分取代了進口芯片。
2016年“神威·太湖之光”誕生,是世界首臺峰值運算性能超過每秒十億億次浮點運算能力的超級計算機。這臺計算機共有40960顆國產芯片,運算系統全面采用了國產“申威26010”眾核處理器。這也是我國第一臺全部采用國產處理器構建的超級計算機。
從北京超級云計算中心來看,根據處理器的類別,北京超級云計算中心的超算分區可以劃分為四大系列:基于AMD芯片的A分區與M分區,以及A分區的加強版「A6分區」;基于英特爾芯片的T分區與L分區;基于國產芯片的先導一號;基于英偉達芯片的AI智算云,比如N17、N19區。
其中,A分區采用的是AMD在2019年推出的第二代EPYC(霄龍)服務級處理器,代號羅馬(Rome),基于7nm工藝,搭載64核心128線程,每一個核心的內存為4GB,在提升核心的同時也提升了時鐘速度,加速頻率可達3.4GHz。
國外方面,今年在超算榜單排名第一的美國的“前沿(Frontier)”超級計算機,相較于神威·太湖之光,美國的Frontier只有9408個節點,每個節點配備一個AMD Epyc 7A53 CPU和四個AMD Instinct MI250X加速卡。顯然,Frontier的節點間通信的壓力要小得多,也更容易設計。
該系統共包括8730112個內核,整個系統總共有9400多個CPU和37000多個GPU。Frontier核心計算部分主要依靠AMD Instinct MI250X加速卡,采用的是CDNA2架構。
此外,每塊加速卡上還集成了128GB HBM2e高帶寬內存。現在的超算主要還是馮·諾依曼結構占主導,內存速度將直接影響計算速度,這種內存比普通的要快得多,目前卻只有少數企業能夠生產。
超算中心如何分配芯片
超級計算機的性能野蠻生長了20年,至今為止,美國研制Frontier的花費也不過區區6億美元,這說明超算系統規模的擴大并不是簡單的堆硬件。
日本“富岳”(Fugaku)超算,宣稱它的浮點運算速度峰值可達每秒41.5億億次;中國的“神威太湖之光”,它的浮點運算速度峰值是每秒12.5億億次。都達到了10億億次以上。超算用了很多個芯片,讓它們同時執行任務,而單個芯片的性能跟個人電腦的芯片是差不多的。用科學術語來說,這叫做“并行計算”,這是高性能計算的基本思路。
超算的算力是和核數有關的。但算力速度并不能與核數構成正比例關系。實際上,要讓多個芯片同時運行,就必須首先給它們劃分好任務,這個任務劃分是要消耗時間的。然后,當各個芯片開始計算之后,還不時地要和其他芯片交換數據,這個通信也是要消耗時間的。
超算的競爭主要是超算系統中調度、分發、通信相關的軟硬件的競爭。早期的超算中心,每一個節點要么純CPU,要么是CPU+加速卡的異構計算方案。但從2010年前后開始,純CPU的方案劣勢太大,越來越少地被采用。CPU+加速卡的異構計算方案也存在很大缺點,即計算的數據會反復在CPU和加速卡之間傳輸,造成大量的性能浪費。
因此,為了更高的性價比和計算速度,早期國內往往會購買英特爾和英偉達兩家美國廠商的成熟產品。
再之后異構計算進入超算中心的眼簾。事實上,最近幾年曾經在TOP500刷榜,或者排名靠前的超算都采用了異構計算——中國神威太湖之光、美國超算泰坦、中國天河1號和天河2號。
泰坦有18688個運算節點,每個運算節點由1個16核心AMD Opteron 6274處理器和1個英偉達 Tesla K20加速器組成,共計299008個運算核心,屬于CPU+GPU。
天河1號使用了14336片英特爾 Xeon X5670處理器和7168片英偉達 Tesla M2050高性能計算卡,屬于CPU+GPU。
天河2號有16000個計算節點,每個節點由2片英特爾的E5 2692和3片Xeon PHI組成,共使用了32000片英特爾的E5 2692和48000片Xeon PHI,屬于CPU+眾核芯片。正在升級的天河2號則將美國的Xeon PHI換成了自主研發的矩陣2000,屬于CPU+DSP。
神威·太湖之光使用的sw26010將兩個部分的電路,集成到了一個芯片上(片上異構),這樣既避免了純CPU不擅長專業計算的劣勢,又避免了加速卡不能和CPU共享內存的問題。使得sw26010在設計團隊規模很小,制程落后整整兩代的情況,實現了和英特爾類似產品相似的功耗和性能。
太湖之光的成功,啟迪了后來日本的“富岳”超算。“富岳”同樣拋棄了美國成熟的計算方案,購買ARMv8.2-A指令集開發管理核心,并自研專業計算模塊,推出了富士通版的片上異構芯片A64FX。
總結
我國在發展超算中心的途中,仍有許多問題。國產芯片研究起步較晚,CPU、GPU等超算核心芯片指令集架構領域仍然存在明顯短板,缺乏高端芯片制造能力。EDA和編程平臺長期面臨卡脖子風險,核心設備依賴進口,自主權和議價權仍由國外巨頭掌控。
