“群模共舞”的AI芯片怨念,千呼萬喚的“存算一體”能否成為新頂流?
2023是“群模共舞”的元年。先是ChatGPT的橫空出世給予眾人致命震撼,隨后國內諸多AI、互聯網公司迅速加大資源投入“練模”。
在這場“模型大戰”中,算力作為不可或缺的重武器,一度成為眾公司爭搶的關鍵要素。
作為人工智能的三駕馬車之一,算力是訓練AI模型、推理任務的關鍵。倘若把訓練模型當作是做一道精致的菜肴,算力就好比一套稱手的烹飪工具。
世人皆知巧婦難為無米之炊,但再好的廚子,沒有一口好鍋、一把好刀,面對鮮美的食材也只能望而興嘆。
“大模型動輒百億級的參數,倉庫里沒有幾百張A100、H100,都談不上入圍。”
所謂兵馬未動、糧草先行。為了練模,模型廠商們對算力芯片的購買達到了前所未有的水平。大模型這波風潮下,最先受益的,既不是躬身入局的企業,也非下游場景用戶,而是以Nvidia為代表的算力芯片廠商。
1、芯片發展面臨“三座大山”
當前AI技術的快速更新迭代對芯片提出了多個挑戰,尤其繞不過“存儲墻”、“能耗墻”和“編譯墻”三座大山。
首先,在傳統馮·諾依曼架構下,芯片在執行計算密集型任務時面臨“存儲墻”問題,這導致計算芯片的功耗和性能都受限于處理器和存儲器之間的數據搬運,嚴重限制了AI芯片在計算規模、密度、效率等方面的提升。
其次,由于“存儲墻”的存在,數據需要頻繁搬運,在存儲、計算單元間來回轉移,導致嚴重的功耗損失,撞到“能耗墻”上。
英特爾的研究表明,當半導體工藝達到 7nm 時,數據搬運功耗高達 35pJ/bit,占總功耗的63.7%。另有統計表明,在大算力的AI應用中,數據搬運操作消耗90%的時間和功耗,數據搬運的功耗是運算的650倍。
最后,“編譯墻”隱于二者之中,極短時間下的大量數據搬運使得編譯器無法在靜態可預測的情況下對算子、函數、程序或者網絡做整體的優化,手動優化又消耗了大量時間。
過去,憑借先進制程不斷突破,這三座“大山”的弊病還能通過快速提升的算力來彌補。
但一個殘酷的現實是,過去數十年間,通過工藝制程的提升改善芯片算力問題的“老辦法”正在逐步失效——
摩爾定律正在走向物理極限,HBM、3D DRAM、更好的互聯等傳統“解法”也“治標不治本”,晶體管微縮越來越難,提升算力性能兼具降低功耗這條路越走越艱辛。
隨著大模型時代來臨,激增的數據計算,無疑進一步放大了“三道墻”的影響。
2、大模型呼喚“存算一體”
大模型的出現,促使AI對大規模芯片算力的需求更加強烈,按照傳統技術路線簡單堆砌芯片無法實現期待的算力規模增長。
同時,芯片能效問題變得更加突出。當前AI芯片能效依然低下,大模型每次訓練和推斷的電費成本昂貴,導致當前大模型的應用經濟性較低。
雖然說現在很多大模型訓練使用GPU,但GPU的架構演進并未解決大算力和大模型的挑戰。
一方面,存儲在GPU中所占比例越來越大。從GPU架構的演進趨勢,可以看到存儲在計算芯片中所占的比例越來越大。計算芯片從以計算單元為核心演變到以存儲/數據流為核心的架構設計理念。
另一方面,數據傳輸功耗仍是提升算力和算力密度的瓶頸,本質上就是馮·諾依曼計算機體系結構計算與存儲的分離設計所致。
總體而言,大模型對于算力的需求呈現指數型增長,但GPU又貴功耗又高,GPU集群的線性度也隨規模增大而下降,探索非馮諾依曼架構已經非常火熱。
AMD、特斯拉、三星、阿里巴巴等公司都曾在公開場合表示,下一代技術的儲備和演進的方向是在“存算一體”技術架構中尋找新的發展動能。
例如,阿里達摩院就曾表示,相比傳統CPU計算系統,存算一體芯片的性能可以提升10倍以上,能效提升超過300倍。
那么,“存算一體”技術到底有何優勢?
存算一體與經典的馮諾依曼架構不同,它是在存儲器中嵌入計算能力,將存儲單元和計算單元合為一體,省去了計算過程中數據搬運環節,消除了由于數據搬運帶來的功耗和延遲,從而進一步提升計算能效。
同時,由于計算編程模型被降低,編譯器也可以感知每一層的數據狀態,編譯效率也將大幅度提升,“編譯墻”的問題也得到了解決,具體而言:
首先,運算的性能更高
存算一體芯片的計算能力取決于存儲器的容量規模。所有電子設備當中都會集成存儲器,存儲與計算相伴而行,有運算的地方就需要對數據進行存儲。
如果采用存算一體芯片,隨著存儲容量規模的提高,其運算能力也會隨之提高。
其次,功耗更低
由于數據傳輸路徑的優化,存算一體技術在提高傳輸效率的同時,節省了數據傳輸的損耗,帶來更好的能效比、低功耗。在相同算力下,AI部分能效比將有2-3個數量級的提升,更低散熱成本,更高可靠性。
最后,成本更低
單位算力成本遠低于傳統計算芯片。同時,存算一體可以采用更成熟的制造工藝,大算力芯片往往需要采用先進工藝,這使存算一體芯片的晶圓成本低得多。
再考慮到配套的外圍芯片、元器件等因素,整個系統成本將有5倍左右降低。
正是因為這些基于基礎架構革新所帶來的性能提升,存算一體技術有望在很大程度上解決AI大模型面臨的算力挑戰。
特別是針對大模型的推理,存算一體保持權重的特點與大模型中大規模的參數部署需求相匹配,可能是存算一體技術最先服務大模型應用的場景之一。
3、大模型「下半場」:邊緣計算成為重點
如果說大模型「上半場」是技術的較量,那么「下半場」則是商業化的比拼。
無可置疑,大模型將解決掣肘AI落地的碎片化難題,并極大地削減研發成本,給AI帶來質的飛躍,使其具備更大的想象空間。但這只能算是階段性勝利,只有客戶乖乖掏出錢包里的金幣,并持續復購,產生價值,AI才算取得成功。
這個AI商業閉環中,還涉及到一個部署成本的問題。
AI不是消費電子,即買即用,盡管其常常被嵌入至各類電子設備中。但AI的消費大戶,仍是以降本增效為目的的B/G客戶。這類客戶對于AI的最后一公里交付尤為重視,他們并不愿意為AI方案的部署花費任何多余的金幣。
傳統AI部署常見于云端一體,主要通過云端進行計算,感知端僅有微弱算力,數據在端側采,算法在云上跑。這種模式存在幾個問題:
云計算固然有大算力的好處,但對于一些需要快速響應、計算的場景,其存在的時滯現象非常致命;
云服務器費用高昂,許多企業并不需要大算力,盲目上云反而會造成算力浪費,性價比不高;
數據上云,存在一定安全風險;
為此,AI公司們在云端一體之間,增加了邊緣計算,來解決云端算力浪費及端側算力不足的問題。
邊緣計算的靈感得益于章魚的八只觸手。作為云端計算的協同和補充,邊緣計算能夠在數據源頭附近的網關執行數據處理、分析,這種獨特的優勢可以實現各單元之間執行不同的任務并實現多任務協同,既滿足碎片化場景的算力調度需求,又具備低延時、安全等特點。
并且,邊緣計算設備的部署成本相對較低,客戶不需要部署昂貴的云服務器就能用上AI,這一核心優勢使得邊緣計算備受青睞,已然成為AI落地的重要途徑之一。
但要真正讓算法模型在邊緣計算設備上跑起來,仍有兩個比較重要的難點。
第一,邊緣設備的算力比云端服務器弱,而大部分的算法模型,是在服務器上訓練的,算法模型要實現遷移,需要做大量的優化工作。
第二,算法模型要在邊緣設備上部署、執行推理任務,需要一顆強大的AI算力芯片,并針對芯片做適配,才能保證算法模型的運行效率。也就是說,AI算力芯片的生態極其重要,但現階段比較尷尬的是,AI算力芯片廠商較為分散。
可以預見的是,在大模型時代,第一個問題較為容易解決,因為大模型自帶極強的泛化能力。至于第二個點,則要比想象中難得多,其涉及到底層芯片技術的研發和攻關,以及對應的生態協同。如何讓邊緣設備運行大模型,對于AI芯片廠商而言,這既是機遇,也是挑戰。
4、大模型時代下,AI芯片的國產替代潮
AI芯片功能上分兩類,分別是訓練芯片和推理芯片。
訓練芯片主要用于大模型的訓練、學習和優化,側重于計算性能,而推理芯片則主要為模型的推理運算提供算力。二者之間的區別在于,訓練芯片重計算,推理芯片重效率(時延、功耗)。并且,從云邊端協同的角度看,訓練芯片多用于服務器,推理芯片則主要部署在邊端設備之上。
當前,國內大模型正處于“練模”階段,需要極強的算力支撐,因此AI公司們將目光更多放在了訓練芯片上,即購買大量的GPU算力來訓練算法模型。這也直接成就了Nvidia的萬億市值神話,其H100、H800等芯片一騎絕塵,國內則有華為、寒武紀等廠商在努力追趕。
一旦大模型成熟,與之而來的便是落地應用,這時必然要用到邊端設備,從而滋生出對推理芯片的龐大需求。
然而,由于不可抗力因素,現階段的訓練芯片和推理芯片皆受到貿易管制,在此背景下,AI芯片的國產替代提上了日程。
作為深圳AI第一股,云天勵飛在邊緣側AI芯片的布局已經成果初顯。2020年,云天勵飛第一代AI推理芯片DeepEye1000實現商用,并落地到AI相機、安全PC、商業機器人等邊緣計算場景。
云天勵飛副總裁、芯片產品線總經理李愛軍告訴雷峰網,大模型作為AI的進階態,本質上還是要落地到具體業務場景才能產生價值,而邊緣計算則是不可逆的趨勢,因此做好邊緣計算的推理芯片,對于未來大模型的應用至關重要。
在過去三年多的時間中,DeepEye1000廣泛落地到各行各業,但同時也帶來了諸多反饋:算力碎片化、算法長尾化、產品非標化、規模碎片化等痛點依舊存在,傳統以追求單一場景PPA的傳統芯片模式難以適應AI邊緣計算場景下人工智能落地的需求。
基于此,云天勵飛打造了新一代的邊緣計算芯片平臺DeepEdge10。
DeepEdge10屬于主控級SoC,可以滿足絕大部分場景的控制需要,同時基于云天勵飛自研的新一代的處理器NNP400T,可以高效支持Transformer。在架構方面,DeepEdge10采用了D2D Chiplet封裝結構,可以實現算力靈活擴展,并通過C2CMesh互聯擴展,可以支持千億級大模型部署。
相較于第一代DeepEye1000,DeepEdge10集成了2+8核通用算力CPU,整體算力提升了4倍以上,采用D2D Chiplet封裝,實現從12T到48T的算力覆蓋,總體性能比上一代芯片超過20倍。
在DeepEdge10的基礎上,云天勵飛還打造了Edge Server算力加速卡,最高支持1024Tops的NPU算力、1920GB/S的內存帶寬,以及512GB統一內存。目前,DeepEdge10已經支持主流開源模型超過100種,模型支持的數量還在更新,同時支持客戶模型定制化的部署。
具體性能上,在Edge Device 端,DeepEdge10Max運行端側70億參數的大模型可以獲得每秒27Token/s,最高可兼容130億參數的大模型。而在Edge Server上,采用C2C Mesh互聯,多卡協同,運行700億參數大模型可獲得42Token/s的生成速度,最高兼容千億級別參數的大模型。
據了解,DeepEdge10芯片平臺核心競爭力在于邊緣計算,可以針對不同的場景提供差異化算力,從而滿足碎片化、多樣化需求。目前,DeepEdge10已經進入了大規模的應用中,有近30家算法芯片化合作伙伴,所有使用云天芯片的產品合作伙伴,均可在線下載更新云天超過100多種算法。
李愛軍表示,大模型未來落地到機器人、無人駕駛汽車等場景,都需要用到推理芯片,而推理芯片正處于百家爭鳴的過程。而在國內,如何基于國產工藝實現推理芯片的研發、流片和商用至關重要。
現階段,國內芯片的成熟工藝處于14nm的節點。對于千億級、萬億級別的大模型,其推理芯片不但需要極強的計算能力,還要保持超低的功耗和超低的成本,對芯片制程的工藝達到了5nm、2nm。顯然,國產芯片離最高端的芯片還有一段距離。
不過,結合當前國內的生產工藝,云天勵飛與合作伙伴于2020年開始技術攻關,在ChipletD2D的技術上定制了一系列IP,實現了可以在14nm芯片上運行千億大模型的功能。雖然成本、功耗會高一些,但這已經是國產芯片的最優水平。至于更高工藝的芯片,國內芯片廠商既需要資源,也需要時間。
“我們志在打造國產工藝自主可控的AI芯片。”李愛軍告訴雷峰網,這條路道阻且長,但云天勵飛會堅定地走下去。
