又一國產企業立志攻克GPU難題，造一塊自己的顯卡到底有多難？

2023-09-07 來源：賢集網

4419

近日，武漢市科技局下達2023年度重點研發計劃項目。攀升科技“基于國產GPU的顯卡研制及產業化”項目位列其中。項目落地后，將解決潛在“卡脖子”產品——“顯卡”的核心計算組件國產化難題。

2023年2月，中共中央、國務院印發《數字中國建設整體布局規劃》，明確要夯實數字中國建設基礎，并構建自立自強的數字技術創新體系。今年以來，在ChatGPT快速迭代的浪潮下，神經網絡、深度學習和預訓練大模型等人工智能技術進入井噴期，全球對超大規模并行算力需求暴增，獨立顯卡作為AI算力核心基礎設施的重要性日益突出。

在GPU領域，我國一直缺少核心技術以及生產經驗，與國際水平差距較大。國產品牌急需突破和壯大，解決潛在“卡脖子”產品核心技術，實施國產品牌替代，共建“光芯屏端網”產業鏈。

攀升科技此次立項成功的“基于國產GPU的顯卡研制及產業化”項目，將解決各類計算“終端”的核心計算組件國產化問題，極大提升計算終端組件的國產化率；基于國家數字基礎建設和獨立自主技術創新的導向，向各領域提供所需的國產品牌顯卡產品，為武漢市和國家的數字基礎建設提供硬科技產品基礎，解決潛在“卡脖子”風險。

本項目將實現從顯卡核心軟硬件設計、研發調試、生產制造到品控檢驗等全流程的核心技術國產化和經驗積累，在諸如顯卡PCB集成電路、供電模組、散熱模組和顯存、供電管理等關鍵技術環節進行創新和突破。

GPU研發技術壁壘極高

GPU的研發是一項大型的系統工程，包含硬件架構、算法、軟件生態等多個組成，缺一不可，壁壘極高。CPU巨頭Intel近二十年多次嘗試征服高端GPU領域，曾在前兩年專門成立加速計算系統與圖形事業部（AXG），試圖再度殺入高端GPU市場，卻始終反響平平。甚至現在的GPU絕對霸主NVIDIA，從95年首款產品NV1正式誕生發展至今，也是在顯卡領域耕耘了20多年才有當前的成績。足可見GPU產業的門檻之高。

在硬件上，國產最大的問題就是IP，任何一款高端芯片的打造都離不開IP。但是，GPU IP的自研開發需要3-5年的周期，需要數百個專業領域的工程師。因此短時間內在硬件上實現完全國產化并不容易，國內GPU廠商如芯動、摩爾線程等幾乎都是外購IP加上部分的自主研發。中天恒星剛發布的“天狼星”雖然實現了國產自主GPU架構，100%IP屬于自主研發，但真正要完善軟件生態，穩定商用，我想還需要很長的一段時間。

在軟件上，國產難題主要涉及驅動開發、算法及軟件生態。業內人士指出，計算芯片最大的門檻其實不是硬件，而是軟件。目前業內GPU特別是用于通用算力的GPGPU，主流的軟件架構是英偉達的CUDA，此架構在2006問世以來，與下游軟件、驅動廠家已經有了深度合作。而且CUDA本身涵蓋了多個技術領域，其開發與后續更新都與英偉達自家GPU高度綁定，從某種角度來看，英偉達在GPU領域的壟斷很大程度上是通過CUDA平臺上的軟件生態實現。因此國內GPU廠商如果想真正對標英偉達，CUDA生態是繞不開的一環。

國產GPU整個商業生態尚未成熟

在芯片“斷供”之前，國內購買海外高端GPU芯片之路暢通，很少有客戶在重大項目采購時會考慮國產GPU，都普遍傾向海外最先進、最穩定的產品，以保證項目順利完成。究其原因有二，一是畢竟國產GPU的發展才剛剛起步，在性能和穩定性方面尚未取得長時間，多項目的驗證，不少國產GPU在實際應用中出現了工作負載低，芯片性能不穩定，兼容性差的情況。二是軟件生態不夠完善，如果一個芯片沒有與之配套的軟件生態，則很難真正形成大面積的應用。

在當下GPU應用最火的AI大模型訓練中，騰訊云新一代HCC（High-Performance Computing Cluster）高性能計算集群使用的是英偉達最新代次H800 GPU；阿里曾在 2018-2019 年采購了上萬塊英偉達的V100和T4 GPU用于近年來的云計算和大模型訓練，其他字節、百度、美團、B站等都清一色采購英偉達的A100、H100 GPU或是去年禁令后英偉達專門推出的減配版 A800、H800 GPU。

這使得國產GPU在國內鮮有大企業應用成功的案例，大部分還僅僅圍繞在PC、圖形渲染領域，或是應用在專門的軍事、政府等部門。商業市場的大門，只是開了一條縫。

另外，國產GPU廠商的硬件架構，軟件API接口不盡相同，客戶基本只能多選一，兼容和替換都不夠靈活，比較難實現技術生態的統一。

短期難盈利

對于GPU創企而言，巨大的研發費用和資本開支是必需，但長期、持續的利潤支撐才是GPU跨代發展的強勁驅動力。

盡管近幾年因為AI人工智能的火爆，使得GPU創企的融資環境變得相對寬松，但由于國內近幾年批量的GPU創企涌入，使得競爭激烈，加上研發投入巨大，在規模市場打開之前，GPU廠商在短期內難以實現量產盈利，令一眾大VC和PE機構望而卻步。

芯片市場上，OPPO上個月關停了手機芯片自研公司哲庫，便是因為短期難盈利，倒在了黎明前。同樣，對于部分GPU創企來說，也面臨著資本市場洗牌的風險。

種子選手的秘密

在目前國內一票GPU的“種子選手”中，一家名叫壁仞科技的企業引起了人們的注意。原因很簡單，那就是其產品BR100不僅創下了全球算力紀錄，并且宣稱其峰值算力達到了英偉達A100的3倍，甚至還能對標沒發售的H100。

然而，稍微了解過國內芯片行業的人都知道，在芯片領域，國內的炒作太多了，徒有其表的例子也太多了。

那么，做出這個“媲美英偉達”GPU的企業，究竟是什么來頭？其自主研發的BR100，是否真的像其宣傳的那樣出色？

要回答這個問題，我們不妨先看看壁仞科技的創始班底，技術背景究竟如何。

作為一家通用智能芯片設計研發商的壁仞科技，成立于2019年，團隊由國內外芯片和云計算領域的專家和研發人員組成。其創始人張旭博士，不僅擁有清華大學和斯坦福大學的博士學位，還曾是英偉達的高級架構師，負責Volta架構的設計和開發。

除此之外，團隊其他成員的技術身份，也頗為亮眼。

李新榮，聯席CEO，曾任AMD全球副總裁、中國研發中心總經理，負責AMD大中華區的研發建設和管理工作。

洪洲，CTO，曾在NVIDIA、S3、華為等工作操刀GPU工程項目，擁有超過30年的GPU領域經驗。

焦國方，軟件生態環境主要負責人，曾在高通領導和產品研發了5代Adreno移動GPU系統架構。

這樣的團隊背景，決定了壁仞科技的技術底色。

依據之前在英偉達、AMD、高通、商湯科技等知名企業的研發經驗和技術積累，壁仞科技研發了自主原創的芯片架構——壁立仞。壁立仞架構基于SIMT（單指令多線程）模型，針對AI場景進行了專用的優化和定制。其最大的特點，就是可以將多個小芯片拼成一個大芯片，每個小芯片只做一部分功能，然后通過高速互連組合成一個大芯片。這樣可以提高芯片的良率和可靠性，同時降低成本和功耗，實現更強大的算力和擴展性。

這就是壁仞科技所謂的Chiplet的設計理念。

這種技術的難點在于如何保證芯片之間的高速通信和協作，同時避免信號干擾和功耗過高。因此，如何設計合適的芯片分割和組合方案，使得每個芯片都能發揮最大的效能，同時減少電磁干擾和熱耗散，就成了Chiplet能否成功的關鍵。

對此，壁仞科技使用了兩種關鍵的技術2.5D CoWoS和BLink，來攻克這一難關。

簡單地說，2.5D CoWoS技術是一種把多個芯片堆疊在一起的技術，它利用了一個硅基板作為中介層，縮短了芯片之間的距離，從而提高了信號的傳輸速度和質量。而BLink則在中介層上，建立了一個專用的接口，它可以讓多個芯片之間直接傳輸數據，而不需要經過其他的電路或芯片，從而減少了延遲和功耗。然而，盡管2.5D CoWoS、BLink這些技術，讓壁仞科技打造出了算力更強的BR100，但這些技術，目前在國際上并不罕見，其他GPU廠商也有過類似的設計。

例如，Nvidia的A100和H100 GPU都采用了CoWoS技術，把GPU芯片和HBM內存堆疊在一起，提高了內存帶寬和計算性能。而Nvidia還開發了自己的NVLink接口，類似于BLink接口，可以讓多個GPU之間高速互聯。

此外，AMD也有自己的Infinity Fabric接口，可以實現類似的功能。

那既然這是一種“大家都能用”的技術，那壁仞科技怎么就做到讓BR100算力達到A100三倍的呢？而英偉達真就會坐視著自己被超越了？

其實，這樣的結果，是二者在不同數據格式下的表現所致。

具體來說，BR100的巨大算力，更多是在矩陣FP32數據格式下的表現。

一般來說，數據格式占用的位數越多，它的范圍和精度就越高，但是也會消耗更多的空間和電力。而矩陣FP32其實就是一種特殊的FP32數據格式，它只用了19位來存儲一個浮點數，這樣做的目的是為了讓矩陣FP32能夠兼容Tensor Core這種專門用于加速矩陣乘法的硬件單元。矩陣乘法是深度學習中最常見和最重要的計算操作之一，所以使用矩陣FP32可以大幅提升深度學習的性能。但是，矩陣FP32也有一個缺點，就是它的精度比向量FP32低，也就是說它能表示的浮點數的范圍和細節程度比向量FP32小。這樣就會導致一些誤差和損失，在某些情況下可能會影響模型的質量和效果。

因此，矩陣FP32和英偉達A100的向量FP32并不等價，因為矩陣FP32只適用于矩陣乘法這種特定的計算操作，并不能代表GPU的整體性能。

國產力量的崛起

這些國產GPU廠商的崛起，對英偉達的AI算力市場份額構成了一定的挑戰和威脅。

一方面，國產GPU廠商可以提供更高性價比、更低能耗、更靈活定制的產品和服務，滿足國內客戶的多樣化需求和預算。

另一方面，國產GPU廠商可以避免受到美國政策的影響和干擾，保障國內客戶的數據安全和供應穩定。

因此，國產GPU廠商有望在國內市場占據更大的份額，甚至在國際市場上與英偉達展開競爭。

當然，英偉達也不會坐以待斃，它仍然擁有著強大的技術優勢、品牌影響力、生態合作力等資源，可以繼續保持其在AI算力領域的領先地位。英偉達不斷推出新一代的GPU芯片和加速卡，如Ampere（安培）架構的A100、Grace（格雷斯）等，提升其在AI訓練和推理方面的性能和效率。英偉達還不斷拓展其在AI應用領域的布局，如收購Arm、DeepMap等公司，加強其在自動駕駛、物聯網、邊緣計算等領域的競爭力。英偉達還不斷完善其在AI開發生態方面的支持，如推出Jetson Nano、JetPack SDK等工具，降低AI開發者的門檻和成本。

國產顯卡的發展未來對英偉達顯卡AI算力需求的替代前景是一個值得關注和探討的話題。

從目前的情況來看，國產顯卡已經取得了顯著的進步和突破，對英偉達形成了一定的競爭壓力。但是，英偉達仍然保持著其在AI算力領域的領導地位，對國產顯卡也有著自己的應對策略。

未來，隨著AI技術和應用的不斷發展和創新，GPU市場將呈現出更加多元化和激烈化的態勢，這將對各個GPU廠商提出更高的要求和挑戰，也將為用戶帶來更多的選擇和價值。

登入后，方可留言>>

行業動態

華為“四芯片封裝”專利曝光，或用于下一代 AI 芯片昇騰 910D

第一季度全球智能手機產量達2.89億部

因存在安全隱患，羅馬仕召回491745臺移動電源

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產

又一國產企業立志攻克GPU難題，造一塊自己的顯卡到底有多難？

又一國產企業立志攻克GPU難題，造一塊自己的顯卡到底有多難？