GPU的發展竟是?由一副3D圖像推動,國產GPU下階段方向明確
3D圖像一直是芯片發展的推動力之一,從上世紀九十年代直到今天,以游戲、電影等為代表的高性能圖像渲染應用的蓬勃發展直接讓GPU芯片成為了一個新的芯片品類,并且快速發展至今。從這個角度,我們認為高性能3D圖像渲染以及3D圖像學的發展一直在驅動著GPU芯片品類的發展。
成長下的優勢推動GPU市場
從單純的圖形控制功能發展而來,GPU已經成為架構復雜度最高的芯片之一。
據數據統計,2020年,GPU行業規模為200億美元,預計2021年將增長15%。從2015年到2025年,GPU行業預計平均每年增長13%,將從80億美元擴展到350億美元的規模。可視化需要大量的圖形、圖像計算能力,無論是云端還是邊緣側都需要大量的高性能圖像處理能力。因此最近這幾年GPU的增長速度非常快速。
從各個調研機構的數據預測來看,GPU在AI推理市場、服務器市場、數據中心市場等都呈現出蓬勃增長的態勢。隨著GPU自身在并行處理和通用計算的優勢,逐步拓展了其在服務器、汽車、礦機、人工智能、邊緣計算等領域的衍生需求。
GPU是AI訓練階段較為適合的芯片,在AI時代的云端訓練芯片中占據較大的份額,達到64%,2019-2021年年復合增長率達到40%。此外,推動GPU市場增長的其他因素還包括越來越多的對汽車、制造業、房地產和醫療保健等各個行業的圖形應用程序和3D應用的支持。在最近的5年里,英偉達股價飆升2268%,在今年7月8日收盤后,英偉達市值首次超過英特爾,一度成為美國市值最高的芯片企業。
AMD公司的市值也同樣一路飆升,在最近其市值也逼近了千億美元的大關。
微架構設計是GPU性能提升的關鍵所在
GPU微架構(Micro Architecture)是兼容特定指令集的物理電路構成,由流處理器、紋理映射單元、光柵化處理單元、 光線追蹤核心、張量核心、緩存等部件共同組成。圖形渲染過程中的圖形函數主要用于繪制各種圖形及像素、實現光影處 理、3D坐標變換等過程,期間涉及大量同類型數據(如圖像矩陣)的密集、獨立的數值計算,而GPU結構中眾多重復的計 算單元就是為適應于此類特點的數據運算而設計的。
微架構的設計對GPU性能的提升發揮著至關重要的作用,也是GPU研發過程中最關鍵的技術壁壘。微架構設計影響到芯片的 最高頻率、一定頻率下的運算能力、一定工藝下的能耗水平,是芯片設計的靈魂所在。英偉達H100相比于A100,1.2倍的 性能提升來自于核心數目的提升,5.2倍的性能提升來自于微架構的設計。
GPU在數據中心的應用蘊藏巨大潛力
在數據中心,GPU被廣泛應用于人工智能的訓練、推理、高性能計算(HPC)等領域。 預訓練大模型帶來的算力需求驅動人工智能服務器市場快速增長。巨量化是人工智能近年來發展的重要趨勢,巨量化的核 心特點是模型參數多,訓練數據量大。
Transformer模型的提出開啟了預訓練大模型的時代,大模型的算力需求提升速度 顯著高于其他AI模型,為人工智能服務器的市場增長注入了強勁的驅動力。根據Omdia數據,人工智能服務器是服務器行 業中增速最快的細分市場,CAGR為49%。 戰略需求推動GPU在高性能計算領域穩定增長。
高性能計算(HPC)提供了強大的超高浮點計算能力,可滿足計算密集型、 海量數據處理等業務的計算需求,如科學研究、氣象預報、計算模擬、軍事研究、生物制藥、基因測序等,極大縮短了海 量計算所用的時間,高性能計算已成為促進科技創新和經濟發展的重要手段。
人工智能圖像學對于GPU的需求
我們認為,人工智能圖像學對于GPU提出了新的需求。
首先,在基本的NeRF或者3D GS的渲染中,傳統的GPU中的多邊形渲染流水線已經無法高效支持,因為NeRF和3D GS的渲染需要一些重要的新計算。對于NeRF來說,其場景建模信息都包含在訓練過的神經網絡中,神經網絡的輸入就是用戶當前的視角,輸出則是場景在視角下的2D圖像。因此,其渲染過程其實就是根據用戶的視角來完成神經網絡的推理計算。而在3D GS中,具體的渲染過程則是把整個場景分成多個塊(tile),每個塊中根據當前視角首先排序選出對于視覺影響最大的N個GS,之后再僅僅針對這些GS做渲染,從而可以實現高效率。我們可以看到這些都和當前的多邊形渲染流水線有較大不同,為了能高效支持這些3D圖像學的新范式,GPU需要能高效支持這些新計算。
另外,在新的3D圖像學是由人工智能驅動的這一潮流下,我們勢必會看到3D圖像渲染和人工智能的進一步結合,例如在NeRF和3D GS的場景建模中加入基于神經網絡計算的動畫或者編輯(光影變化等),這些又進一步說明目前的GPU上的多邊形渲染流水線對著這類新圖像渲染范式已經無法高效支持。
GPU新架構呼之欲出
我們認為,這些新的超高精度3D圖像學會推動新的GPU架構發展。
從桌面和服務器GPU芯片角度,我們認為GPGPU架構會得到進一步的推廣。Nvidia主導的GPGPU在人工智能浪潮的前幾年(2012-2017)是Nvidia能夠占據人工智能霸主地位的核心,因為GPGPU的開放接口可以讓GPU去做人工智能計算。在這之后,隨著人工智能應用進入主流地位,Nvidia開始給人工智能做專用優化,引入了包括Tensor Core等重要新架構,換句話說人工智能在Nvidia的GPU上已經不再主要依賴其GPGPU思路,而是更多依賴Nvidia的人工智能架構設計。然而,隨著新的3D圖形學的發展,GPGPU又會重新進入聚光燈下。
從芯片架構角度來說,從宏觀上這意味著GPGPU的進一步進化,以及和人工智能的融合。之前,GPGPU允許用戶去調用3D圖形計算的單元去做其他非圖形的計算;而隨著新的3D圖形學的發展,需要GPGPU能進一步開放圖形渲染單元,讓圖形渲染單元更加靈活,從而能支持新的3D建模范式的高效渲染。我們認為,芯片架構層面,對于這樣新3D圖形學范式的支持,有三方面的需求。
第一個方面是打通渲染流水線和人工智能引擎由于神經網絡的計算在新的3D圖形學中起了極其重要的角色,如何把圖形渲染單元和GPU中的人工智能引擎打通,將是支持這類新3D圖形學渲染的核心需求。例如,在芯片架構設計中,需要能夠讓圖形渲染單元和人工智能引擎之間實現有效通信以及互相高效調用,從而能充分支持這樣的渲染需求——像NeRF這樣的建模方法中,每一幀計算都需要去運行一次神經網絡推理,在高分辨率的時候神經網絡會非常復雜,而高幀率則需要神經網絡延遲有很高的需求,在這種情況下需要圖像渲染和人工智能引擎充分打通。
第二個方面是對于這些新的范式,如何實現硬件優化。對于基于多邊形傳統3D圖形學的渲染加速,GPU已經有了數十年的積累,因此從硬件上幾乎已經把優化做到了極致,然而對于NeRF或者3D GS這樣的新范式,硬件優化目前仍然不存在。第一步,我們可以把目前已有的針對多邊形渲染的優化應用到這類新3D圖形范式上,例如分塊(tile)渲染以實現并行處理,以及流水線計算以降低延遲,等等。更進一步,未來會出現針對這些新3D圖形學范式的專門優化,從而可以將渲染效率進一步提高。
第三個方面是如何提供靈活的用戶接口。3D新圖形學方興未艾,在可預計的未來仍然會高速發展,因此如何能給用戶提供接口,從而可以讓用戶靈活利用和配置GPU上的計算單元,從而用戶可以根據自己獨特的設計來配置GPU上的渲染流水線以實現高效率。這樣的可配置性對于培養新3D圖形學的生態將會是至關重要,如果想要重復Nvidia在人工智能浪潮中的成功,那么就需要在新3D圖形學算法尚未最終塵埃落定的時候就提供足夠支持以培養用戶生態;如果想要等到算法技術已經足夠成熟后再開始提供支持,那么生態角度就會站在非常不利的位置。
國產GPU下階段的發展方向
國產GPU的生產商包括兩種:自主研發系以及引進系。
自主研發系包括:中船重工709所、中船重工716、景嘉微、航錦科技、龍芯、上海兆芯等機構和公司;引進系則有凱橋資本收購的Imagination。
目前,國產GPU中,較為知名的為中船重工701所的凌久GP101、中船重工716所的JARIG12、景嘉微的JM7200。
現在國內做GPU的企業,比如芯動科技、景嘉微等都開始加速發展,芯動科技所推出的“風華”系列GPU正在引起越來越多的關注。
芯動科技即將發布的兩款“風華”系列智能渲染GPU圖形處理器,將逐步改變國內桌面和服務器領域客戶定制高性能GPU芯片長期受制于人的局面。
這兩款GPU芯片針對國內新基建客戶定制需求,填補國內高性能數據中心顯卡空白,經芯動團隊多年研發積累,已完成設計,將實現年內量產。
GPU的3個未來趨勢是:大規模擴展計算能力的高性能計算(GPGPU)、人工智能計算(AIGPU)、更加逼真的圖形展現(光線追蹤 Ray Tracing GPU)。
此外,由于GPU越來越廣泛地應用到手機、終端、邊緣計算節點等嵌入式設備,所以高效能也是一個永恒的追求。
據統計,2019年上半年中國GPU服務器市場規模為8.3億美金,同比增長53.7%,預計到2023年中國GPU服務器市場規模將達到44.5億美金,5年CAGR為27.8%。
