搶占算力就是搶占AI市場先機,這類芯片肩負AI算力
人工智能要發展,離不開三個關鍵要素:算力、算法和數據。進入大模型時代,算力增速變成了每年增長上百倍,從去年算力的規模來看,到今年已經達到268EFLOPS。在大模型應用場景的廣泛開拓與深入發展的背景下,智能算力規模超過通用算力,并且未來5年的增速已經達到了52%。所以過去一年,眾多企業紛紛開始搶占算力資源,以贏得市場先機。
陳振寬認為,“大模型訓練依靠的是整個算力集群,包含整套的服務。例如分布式訓練的構建;不同節點顯卡的并行作業;節點內和節點間的通信;AI存儲、高速網絡,異構算力調度等等。突破算力這一關,才算拿到人工智能時代的‘船票’。”
過去,十億級、百億級的模型訓練已經逐漸成熟,包括科學研究、機器視覺等等應用場景。但對于千億級參數大模型的訓練,以及后續所需的精調和推理,對算力的需求將會方興未艾。
數據量增長帶來算力需求提升,智能算力規模有望快速增長
數據海量增加,算法模型愈加復雜,應用場景的深入和發展,帶來了對算力需 求的快速提升。根據白皮書數據顯示,從 2012 年開始的 6 年中, Al 計算的需求增 加了 30 萬倍。
算力發展推動我國數字經濟量質齊升。2022 年我國算力規模穩步擴張,智能 算力保持強勁增長。我國算力產業保持穩健發展,并且為拉動我國 GDP 增長做出 突出貢獻,在 2016-2022 年期間,我國算力規模平均每年增長 46%,數字經濟增 長 14.2%,GDP 增長 8.4%。 各地也將算力發展放在重要位置。從算力發展指數來看,我國京津冀、長三角、 粵港澳大灣區、成渝雙城經濟圈等區域算力發展保持領先水平,其中廣東、北京、 江蘇、浙江、山東、上海仍然位于第一梯隊。中西部核心省份算力發展日益崛起,貴州、內蒙古、甘肅、寧夏等核心省份算力發展優勢突出,隨著“東數西存”“東 數西訓”“東數西算”等鏈條并行發展,中西部地區技術創新、算力應用、產業基 礎等制約算力發展的條件不斷得到改善。
根據 IDC 測算,國內智能算力規模正在高速增長。2022 年中國智能算力規模 達 259.9 每秒百億億次浮點運算 (EFLOPS) ,2023 年將達到 414.1 EFLOPS,預 計到 2027 年將達到 1117.4 EFLOPS(基于 FP16 計算)。2022-2027 年期間, 中國智能算力規模年復合增長率達 33.9%。
2022 年中國通用算力規模達 54.5 EFLOP5,預計到 2027 年通用算力規模將達到 117.3 EFLOPS(基于 FP64 計算)。2022-2027 年期間,中國通用算力規模 年復合增長率為 16.6%。
上海打造全國規模最大國產單池萬卡液冷算力集群
1月22日,中國電信上海公司(以下簡稱“上海電信”)聯合徐匯區政府共同舉辦“算力惠模都萬兆連速城”人工智能公共算力服務產品發布會,會上,中國電信在上海率先啟動“大規模算力集群暨人工智能公共算力服務平臺”,這也是全國首個國產單池萬卡液冷算力集群,將助推上海搶占全國算力發展制高點。
據了解,該集群采用新一代國產AI算力,實現了全棧自主創新和技術突破,通過高速RDMA(遠程直接數據存取)連接各物理機節點,提供低延時、高吞吐量、無損通信網絡和強大的并行計算能力,是目前規模最大的全國產液冷機房,多項技術指標領跑全國:如最高可支持萬億參數大模型,便于各科研院校、大模型訓練公司等機構和企業實現物理資源獨享,無虛擬化損耗,滿足AI計算、深度學習、圖形渲染等復雜訓練任務對算力的要求。
同日,上海電信“雙萬兆接入暨一跳入算服務”正式在徐匯區“模速空間”啟用,上海電信將為入駐企業提供雙萬兆網絡和“一跳入算”服務,以及算力算網免費試用和優惠商用資費。
徐匯區“模速空間”是全國首個大模型專業孵化和加速載體、大模型創新高地和生態集聚區。
AI計算芯片的不同路線角色,GPGPU肩負算力新基建重任
工業和信息化部、中央網信辦、等六部門聯合印發的《算力基礎設施高質量發展行動計劃》的發布,有望推動我國算力基礎設施快速發展,利于行業景氣度提升,整個算力產業鏈或將迎來新的增量空間。
如同攀登珠峰的路線不止一條一樣,AI計算芯片也分多種。根據應用場景不同,AI芯片分為訓練芯片、推理芯片、訓推一體芯片,需求最旺盛的即是訓練芯片。而對訓練芯片而言,又可以分為GPGPU和ASIC兩類技術路線。
先說GPGPU技術路線,它從GPU發展而來,是GPU去掉圖形處理能力,提升并行計算能力之后的產物,其最大的特點就是可適合絕大多數AI計算場景,通用性強,也更利于算力新基建的規模化發展。特別是在大模型計算日益復雜的今天,絕大多數AI算力都依靠GPGPU供給,使用GPGPU 在云端運行模型訓練算法,能夠縮短海量訓練數據的訓練時長,減少能源消耗,進一步降低人工智能的應用成本,其在智能工廠、無人駕駛、智慧城市等領域具有廣泛的市場空間。據統計,目前GPGPU 占據人工智能90%以上的市場份額。
再說ASIC這條技術路線,它是一種為特定場景專門設計的集成電路,比如NPU。與GPGPU不同的是,ASIC芯片需要結合大模型算法做定向開發和調配,因此通用性沒有GPGPU那么強,這也直接導致算力基建上的規模化應用較低。
因此,此次《行動計劃》的發布,從某種程度也說明了加快發展GPGPU的作用之大,意義之深遠。換言之,GPGPU需肩負起的算力新基建重任也尤為明顯。
