美國企圖扼住我國超算“命運”,自研處理器再次打臉老美
在2009年的時候,中國基于intel的CPU、AMD的GPU研發出了第一代天河一號超級計算機,在2009年時排名全球第四。
而在2013年的時候,中國將天河一號升級為天河二號,使用的是Intel Xeon E5-2692 12核處理器及Xeon Phi 31S1P加速卡,當年中國的天河二號排名全球第一,峰值性能是54.9PFLOPS,也就是5.49億億次。
并且在2013年至2016年間,中國的天河2號,連續6次排名TOP500的第一名。
超級計算機有多重要,就不用大家多說了,所以美國肯定不愿意看到中國的超級計算機這么牛,于是在2015年年的時候,美國禁止intel、AMD等公司,向中國出口高性能計算芯片。
那中國的超級計算機怎么辦?
用國產芯片頂上
后來中國采用Alpha架構,再拓展SW64指令集,研究出了申威處理器26010。
基于26010這款國產CPU,中國在2016年就推出了神威.太湖之光,在2016年6月20日的TOP500榜單中,太湖之光算力全球第一,達到125PFLOPS,也就是12.5億億次每秒,并且是超第二名近三倍的運算速度奪得第一。
后來從2016年到2017年,神威.太湖之光,連續4次TOP500榜上排名全球第一。直到2018年才被美國的“頂點”超過。
但事實上,太湖之光的規模還可以擴大,如果擴大到120個機柜,那么其峰值性能將達到1.72 Exaflops,超過當前最強的美國“Frontier”(1.68 Exaflops),排名全球第一。而在160個機柜的條件下,可以達到性能2.3 Exaflops。
前段時間網上還曝光了申威26010芯片的加強版SW26010 Pro,性能更強,且已用于超算神威.海洋之光,性能早超過了百億億次,只是沒對外公開。
除了神威太湖之光之外,曾經最牛的天河二號,在intel芯片被禁用后,也走出了自研之路,后來推出了國產加速器Matrix 2000,用來取代原本的Intel Xeon Phi加速器。
使用這款國產CPU后,天河二號的升級版本叫做天河2A,峰值性能從之前的54.9PFLOPS提升到了100PFLOPS左右。
而近日,天河2A的升級版本,“天河星逸”超級計算機正式發布,這臺超級計算機采用的是Matrix 3000處理器,純國產。
“天河星逸”的性能革命!
相比于前代的“天河二號”,“天河星逸”在通用CPU計算能力、網絡能力、存儲能力以及應用服務能力等方面實現了倍增。
據國家超算廣州中心主任盧宇彤介紹,“天河星逸”支持高性能計算、AI大模型訓練以及大數據分析等多種應用場景的需求,其強大的高端算力與平臺支撐將為廣州市、廣東省乃至整個粵港澳大灣區的前沿科技突破、戰略工程建設和產業升級轉型注入強大動力。
然而,“天河星逸”的威力遠不止于此。國家超算廣州中心副主任陳志廣透露,這款超算系統采用了最先進的超算技術,相比原有系統,在通用算力上提升了5倍,并且強調了應用能力的提升。這意味著,“天河星逸”的峰值算力已經達到了約600 PFlop/s(每秒50億億次)的驚人水平。
2017年9月份,廣州超算中心宣布升級天河二號超算系統,使用國產加速器Matrix 2000取代原本的Intel Xeon Phi加速器。Matrix 2000的整數架構基于ARM,但矢量單元是我們自定義的256bit VFU矢量單元。每個Matrix 2000由128個內核組成,頻率為1.2GHz,每周期能執行16個雙精度運算,處理器峰值性能為2.45TFLOPS。升級后的天河二號被稱為天河2A,峰值性能提升到了100PFLOPS左右。
如今,“天河星逸”的出現,無疑是這一發展歷程中的又一座里程碑。它不僅在性能上實現了質的飛躍,更展示了我國在超算領域的自主創新能力和堅定決心。
下一代神威
除了天河外,中國的另一大超算系列神威也沒有閑著。在今年的 SC23 上,雖然我們沒有看到新的中國超算上榜,但申威終于展示了新SW26010 Pro 眾核處理器以及下一代神威超算的性能。
此次SW26010 Pro 依然是采用異構眾核的設計,與 SW26010 4個 Core Group 的設計相比,SW26010 Pro采用了 6 個 Core Group 的設計,每個 Core Group由 64 個CPE計算核心和一個MPE 管理核心組成,單芯片核心數達到了 390 個。根據申威提供的數據,其峰值 16bit 浮點算力可達55.296Tflop/s。
相較上一代 SW26010 DDR3-2133所提供的136.5GB/s 總內存帶寬,此次 SW26010 Pro 升級支持了 DDR4-3200,理論內存帶寬可達 307.2GB/s。這與其他超算芯片的內存帶寬表現還是有著較大的差距,也就導致了計算和網絡活動爭搶內存帶寬的局面,同步內存訪問下,NIC 只能實現 9.87GB/s 的帶寬,離理論網絡帶寬 56.25GB/s相差甚遠。
不過在具體性能表現上,基于這一處理器的新神威超算卻在 HPL-MxP榜單上排到第二的位置。從其數據來看,新的神威超算核心數達到 4114萬224 個,在 HPC 與 AI 計算同等重要的 HPL-MxP 測試下可以達到 5.048Eflop/s 的性能,僅次于 Frontier。峰值半精度性能達 5.92Eflop/s,半精度浮點效率高達 85%,這樣的銷量也是一眾異構超算系統中最高的,僅次于非異構的富岳超算。
寫在最后
在推動數字經濟持續發展的當下,算力并網已經成為了解決算力分布不均、供需失衡的關鍵方案之一,而超算恰恰是除了通算、智算之外的另一大重要應用。目前粵港澳大灣區擁有較為豐富的超算資源,打造多模式的融合應用支撐平臺,加快多方并網生態構建,將成為推動算力規模突破 10Eflops 的關鍵路徑。
