國產AI芯片之爭才剛剛開始

2023-07-04 來源：半導體產業縱橫

2024

近日，芯片巨頭AMD推出全新AI GPU MI300系列芯片，與英偉達在AI 算力市場展開競爭。

AMD首席執行官蘇姿豐介紹稱，MI300X提供的高帶寬內存（HBM）密度是英偉達H100的2.4倍，HBM帶寬是競品的1.6倍。華爾街分析師也普遍認為，AMD的這款芯片將對目前掌握AI芯片市場逾八成份額的英偉達構成有力挑戰，這款MI300X加速器，有望替代英偉達的同類產品。

然而，市場對本次新品的反響似乎并不熱烈。截至隔夜收盤，AMD股價下跌超3.6%，被挑戰的英偉達不跌反漲，股價單日大漲3.90%。

至于當日AMD股價下跌的原因，可能包括英偉達在AI發展方面更為成熟，而AMD公司的新品仍有待市場驗證。此外，其客戶更關心的是價格問題。作為參考，由于供需緊張，英偉達H100的價格已經達到4萬美元/枚，而AMD沒有披露MI300X的定價，難以與英偉達H100形成對比。

01躥紅的英偉達

2022年ChatGPT橫空出世，把AI 行業的發展推向了一個新的高潮，生成式 AI 需要基于海量的數據進行推理訓練，高算力的 GPU 加速卡自然也成了市場的搶手貨。乘著AI的東風，英偉達坐上了“算力霸主”的寶座。

據悉，微軟用幾億美元，耗費上萬張英偉達A100芯片打造超算平臺，只為給ChatGPT和新版必應提供更好的算力。不僅如此，微軟還在Azure的60多個數據中心部署了幾十萬張GPU，用于ChatGPT的推理。特斯拉CEO馬斯克也購買了約1萬個GPU，用于公司的兩個數據中心之一。除此之外，像亞馬遜、阿里、百度等眾多科技公司都在競相部署AI芯片。

供需的極度不平衡讓英偉達的GPU一芯難求，開啟漲價。據市場消息人士透露，英偉達的A100和H100 AI GPU訂單還在不斷增加，A800和H800的售價已上漲40%，新訂單交期可能要延長到12月份。

在炙手可熱的AI浪潮下，英偉達賺得盆滿缽滿。英偉達表示，其截至 7 月的本季度銷售額預計將達 110 億美元，較華爾街之前的估計高出 50%以上。不過，作為AI的基礎設施，算力芯片環節的“一家獨大”顯然不是有利于行業長遠發展的生態，市場迫切需要引入新的競爭者，AMD的出現或許有望“分擔”AI市場的壓力。

與此同時，中國本土AI應用和AI芯片初創公司也隨著AI的熱潮和風投的關注而遍地開花。那么，中國的AI芯片研究進展如何了？哪些公司可以脫穎而出？

02國產AI芯片進展幾何？

中國主要的AI芯片公司有寒武紀、華為昇騰、海光信息、沐曦科技、壁仞科技、燧原科技、天數智芯等，隨著AI應用的普及和成效開始凸顯，國產AI芯片正迎來全面爆發和增長，多家AI芯片獨角獸也將慢慢浮出水面。

寒武紀

在云端產品線，寒武紀已經推出了四代芯片產品，分別為：思元100、思元270、思元290（車載）以及思元370系列，用以支撐在云計算和數據中心場景下復雜度和數據吞吐量高速增長的人工智能處理任務。此外，寒武紀還有一款在研產品思元590，尚未正式發布，并且最有看頭的便是寒武紀的思元590。

該芯片采用MLUarch05全新架構，實測訓練性能較在售旗艦產品思元290系列有大幅提升，有望成為國產先進AI算力芯片。據悉，思元590整體算力綜合性能大約是A100的70%，其有望在部分場景替代英偉達A100。

不過，思元590的指令兼容性相對較差，后續可能影響部署。值得注意的是，其下一代產品的性能指標大約是A100的1.5倍，但同樣面臨軟件生態影響，以及供應鏈問題。

華為昇騰

華為昇騰主要包括昇騰910和昇騰310兩款處理器，采用自家的達芬奇架構。昇騰310主打面向邊緣場景的低功耗AI處理器，昇騰910是一款面向云端和數據中心的高性能AI處理器，可以支持超大規模的AI訓練任務，表現十分優秀。

據華為發布的信息，實際測試結果表明，在算力方面，昇騰910完全達到了設計規格，即：半精度 (FP16）算力達到256 Tera-FLOPS，整數精度 (INT8) 算力達到512 Tera-OPS，重要的是，達到規格算力所需功耗僅310W，明顯低于設計規格的350W。

據悉，在實際應用過程中，昇騰910的處理速度比業界同類產品快80%以上。徐直軍表示，昇騰910 總體技術表現超出預期，作為算力最強AI處理器，當之無愧。

不過昇騰910也有著很大的局限性。昇騰910依賴華為自身軟件生態、需要華為深度優化及代碼移植，通用性相對要差一些，比如昇騰不能做GPT-3，因為昇騰910不支持32位浮點，而目前大模型訓練幾乎都要使用32位的浮點。

沐曦科技

沐曦公司旗下主要有曦思和曦云兩款AI芯片，其中曦云MXC系列是該公司研發的用于AI訓練及通用計算的GPU芯片。

MXC500是沐曦對標A100/A800的算力芯片，FP32浮點性能可達15TFlops，作為對比的是A100顯卡FP32 性能19.5 TFLOPS。除了性能接近之外，MXC500的完整軟件棧（MXMACA）還兼容CUDA，預計年底規模出貨。

此外，沐曦的團隊背景經驗十分豐富，其一些核心人員曾參與AMD的MI100、MI200產品開發，這都是AMD目前最主流的GPGPU產品。

海光信息

海光信息是一個潛力股，拿海光DCU（協處理器）系列深算一號和英偉達的A100、AMD的MI100來對比，其很多基本指標上都達到國際同類高端產品的水平，雖然在整體性能上依然有明顯差距，但在國產替代的背景下其實已經相當優秀，發展潛力巨大。

不過，海光信息若要使用新一代GPGPU架構還需要AMD授權，存在迭代問題。

壁仞科技

壁仞的BR100 發布時，憑借其超高的參數與性能引起了強烈的轟動。

參數方面，BR100系列基于7nm制程工藝打造，擁有770億個晶體管。由壁仞科技自主原創的芯片架構開發，采用Chiplet（芯粒）、2.5D CoWoS等先進的設計、制造與封裝技術，可搭配64GB HBM 2E顯存，超300MB片上緩存，支持PCIe 5.0、CXL互聯協議等。

性能是BR100最具亮點的地方，擁有1024 TOPS INT8，512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32，可實現2.3TB/s的外部I/O帶寬，支持64路編碼、512路解碼等，號稱在FP32（單精度浮點）、INT8（整數，常用于人工智能推理）等維度，均超越了國際廠商最新旗艦。

BR100 系列通用 GPU 芯片支持云端訓練和推理，目前已經到了收尾階段，預計將在今年流片。壁仞科技的第二款芯片已經開始啟動架構設計，之后壁仞科技還將逐步推出面向智算中心、云游戲、邊緣計算的GPU芯片。

不過，BR100還未有產品出來，其參數至今停留在實驗室階段，屆時商用實測性能難以衡量。

阿里平頭哥

阿里的AI芯片，與GPU架構有著很大的不同，因為他們做的完全是基于AI算法優化的架構。

阿里曾表示，含光800是當時全球最強的AI芯片，性能和能效比均為第一，1顆含光800的算力相當于10顆GPU。

含光800芯片在業界標準的ResNet-50測試中，推理性能達到78563 IPS，比目前業界最好的AI芯片性能高4倍；能效比500 IPS/W，是第二名的3.3倍。

在業界，平頭哥發布的這款芯片也很被看好。

燧原科技

燧原科技，是少有的云端AI芯片創業公司，其完成對AI 訓練芯片的二次迭代，僅用了三年時間，主要產品是“邃思”。

據介紹，燧原科技發布的邃思2.0的尺寸達到57.5毫米×57.5毫米（面積為3306mm2），達到了日月光2.5D封裝的極限，與上代產品一樣采用格羅方德12nm FinFET工藝，內部共整合9顆芯片，單精度FP32算力為40TFLOPS，單精度張量TF32算力為160TFLOPS，整數精度INT8算力為320TOPS。相比之下，英偉達基于Ampere架構的A100 GPU的單精度浮點計算能力僅為19.5TFLOPS。

昆侖芯

百度昆侖芯片是百度自主研發的云端AI通用芯片。在2018年7月舉辦的百度AI開發者大會上，百度公司董事長兼CEO李彥宏正式宣布，百度自研AI 芯片命名為昆侖。百度昆侖1于2019 年成功流片，采用三星14nm制程工藝，目前量產超過2萬片，在百度搜索引擎和百度智能云生態伙伴等場景廣泛部署。百度昆侖2于2021年下半年實現量產，采用7nm先進工藝，其性能比百度昆侖1再提升3倍。據悉，百度正計劃在年底做第三款昆侖芯片。

天數智芯

天數智芯主要包括天垓100和智鎧100兩款AI芯片，天垓100是一款基于 GPGPU 架構芯片的高性能云端通用并行計算卡，據介紹，天垓100從底層硬件到上層軟件都是獨立設計開發，不走購買國外GPU IP的捷徑，確保了完全自主知識產權。隨后天數智芯又發布了其第二款產品“智鎧100”，這款芯片被譽為“鎮館之寶”，吸引了眾多行業用戶的關注。

天數智芯GPGPU計算芯片主要針對云端AI訓練+推理和云端通用計算，是國內難得的兼容CUDA等異構計算生態的數據中心高端計算芯片。

03只靠算力，無法做英偉達的PlanB

英偉達的強不只是體現在硬件產品上，在軟件平臺中，英偉達也有自己的護城河。

CUDA就是英偉達推出的基于GPU的并行計算平臺和編程模型，可以用來加速大規模數據并行計算，使得GPU可以用于更加廣泛的科學計算和工程計算等領域。CUDA的良好生態系統吸引了眾多學術機構和高性能計算中心的關注和使用，也為英偉達提供了強有力的市場競爭優勢。現在AMD也在做同樣的事情，只是英偉達已經占了先發優勢，AMD搭建起來可能會更為艱難。

CUDA的重要性不言而喻，但是提供CUDA兼容層，需要廠商具備足夠的研發實力，上文提到的與CUDA兼容的有沐曦、海光、壁仞、天數智芯等公司，因此是否兼容CUDA也成為衡量AI芯片公司的標的之一。

至于是否一定要兼容CUDA，業界有著不同見解。專家稱，在小模型上CUDA仍然很重要，但在大模型上它的地位越來越輕了。如果未來中國市場以小模型為主，那CUDA還是有很大的影響力，而如果是以大模型為主，對于CUDA的依賴就越來越小了。

總而言之，重視軟件配適開發至關重要。

對于建立國產IT系統的行動建議包括：設置合理國產系統及芯片性能要求和驗證目的，從非關鍵應用開始嘗試導入部分國產芯片；加強軟件配適開發，確保軟件對不同系統的兼容性、穩定性和運營性能；建立加強對國內基礎IT軟硬件廠商的投資，確保廠商對產品開發計劃的影響力；優先考慮國內供應鏈和成熟平臺，積極采用半導體創新技術。

04未來與英偉達的差距定然會逐步縮小

目前芯片已經成為半導體行業中最具有發展潛力的領域之一，AI芯片作為推動芯片行業發展的核心市場，其行業價值無法估計，隨著AI芯片技術的逐漸成熟，其應用場景逐步滲透到各類智能終端領域中，在我國科技發展中占據越來越重要的地位。

根據Gartner的數據，在目前全球半導體產業中，中國GPU的全球市場占比規模僅1%。2022年，在全球6000億美元的半導體采購中，中國企業的芯片采購規模達到1490億美元，占到四分之一；跨國企業的中國工廠芯片采購規模達到2130億美元，占比35%。

中國的芯片產業還有著巨大的發展潛力。未來，中國芯片產業將繼續加大投資，國內企業與英偉達的距離也一定會逐步縮小。