半導體營收之王三十年來或將首次易主第三人,一招GPU打敗天下!
在社會上快速滲透的生成式AI(人工智能)已開始改寫半導體行業的勢力格局。領先一步的美國英偉達的業績飛速增長,2023年在營業收入方面首次躍居世界首位的可能性正在增強。
有觀點預測稱,AI半導體的市場規模到2027年將達到60萬億日元,包括云計算巨頭在內的競爭也在日益激烈。
英偉達將首次捧起半導體行業冠軍寶座
“AI是過去50年來最大的技術創新。與之相近的是互聯網,但AI普及速度更快”,美國半導體巨頭AMD的首席執行官(CEO)蘇姿豐(Lisa Su)12月6日在美國硅谷舉行的技術說明會的開頭這樣強調。
數據中心對高性能CPU(中央處理器)的需求很大,但在AI的開發和利用方面,則需要能夠高效并行處理大量數據的半導體。AMD此前預測這種AI半導體的市場規模到2027年將擴大到1500億美元,后來提高到4000億美元。
英國調查公司Omdia的溫璟如(Claire Wen)指出,“市場正在超預期擴大這一點是確定無疑的”。
首先受益的是在擅長并行處理的圖形處理器(GPU)領域擁有很高市場份額的英偉達。QUICK FactSet統計的市場預測顯示,英偉達2023財年(截至2024年1月)的營業收入將達到上財年的2.2倍,增至588億美元。另一方面,韓國三星電子2023財年(截至2023年12月)半導體部門的營業收入預計為490億美元,比上財年減少34%。預計美國英特爾也將減少14%,僅為539億美元。
美國調查公司高德納咨詢(Gartner)的統計顯示,在1992年開始的四分之一世紀里,英特爾長期位居半導體營收世界第一,2017年以后則維持著該公司和三星交替居首的局面。2022年三星位居榜首。如果英偉達在2023年躍居首位,將是時隔約30年由“新面孔”獲得業界盟主的寶座。
十年間投入百億構筑生態護城河
GPU芯片在超級計算和全球巨頭大模型訓練戰中地位舉足輕重,而掌握全球80%GPU市場份額的英偉達賺得盆滿缽滿。然而,這種壟斷式的市場占有率不是一夜砌成的“城墻”。
據Tractica數據,預計到2025年全球AI硬件市場收入將達到2349億美元,其中GPU的收入占23.2%。
英偉達在GPU市場的構筑的護城河,CUDA是其中至關重要的一環。
英偉達憑借CUDA幾乎壟斷了訓練芯片市場,業界也幾乎沒有巨頭對CUDA生態造成顛覆性沖擊。
英偉達為CUDA生態鋪墊了十余年。
2007年,英偉達的GPU研發技術已占據強勢地位,次年英特爾的大客戶蘋果將MacBook除CPU外直接替換成英偉達Tesla架構的GPU便印證了這一點。
據報道,經年累計英偉達對CUDA總投入早已超過100億美元。
在黃仁勛商業化考慮之下,CUDA生態需要培養潛在開發者,成為受到程序員和企業歡迎的技術平臺。
在2006年推出CUDA后,英偉達的第一個戰略便瞄準了“軟件開發人員”,投入巨資讓開發者習慣使用CUDA平臺。
初期,開發者社區有這樣一句話:CUDA在編程語言和共享存儲器兩個層次的并行都簡化了編程,使得本科生也能使用CUDA寫出大規模高性能計算程序。
為擴大覆蓋率,英偉達將CUDA引入大學課堂,與伊利諾伊大學等高校合作完善函數庫。在2010年時,已有250所大學開放CUDA的教學課程,并有相關論文數千篇。以此為基礎完善生態,英偉達建立研究中心、教學中心、認證計劃,到2015年已有800所大學開發相關課程。
再從業界來看,英偉達投入資金做inception計劃(初創加速計劃),讓初創公司運用CUDA做項目鋪墊基礎。
至今,已有超過100家初創公司利用了CUDA。此外,英偉達開源了Cub、NCCL等通用場景下的開發庫,并優化中間件性能的基礎庫給廠家使用,再次擴大了生態系統。
因此,許多開發者依賴于CUDA,同時憑借強大的核心能力在消費市場上受到青睞。
2012年,在ImageNet競賽一舉奪冠的AlexNet面世后,CUDA已迭代至5.0版本,支持了動態庫和GPU指針。
2016年,OpenAI成立之時,CUDA8.0已經支持半精度浮點數和張量核心,軟件生態已由學界和業界人士熟知、互相推薦。
2022年底,ChatGPT的發布將生成式AI送到人們眼前,CUDA12.0支持了新的NVIDIA Hopper 和 NVIDIA Ada Lovelace 架構功能,并為所有GPU提供了額外的編程模型增強。
等到大模型熱度吹進各家企業時,英偉達已經深化了他們在行業中的差異化,成為市場玩家購物籃的第一選擇。
目前為止,基于CUDA的GPU銷量超過百萬。
而眾多GPU芯片廠家中,為什么是英偉達做出了唯一的CUDA開發環境?
從虧錢生意到利潤1000%
回顧世紀初期,英偉達與微軟、ATI、AMD、英特爾五家巨頭的混戰,英偉達在圖形處理市場中逐漸占據優勢。
2006年7月,AMD以54億美元溢價收購ATI,芯片市場重新洗牌。同年,英偉達的首席科學家David Kirk提出了“將GPU技術通用化”的思路,從主要做3D渲染的任務中脫離出來,探索通用計算任務。
這個思路就是CUDA。而當時,愿意擔起這門費錢費力的技術活的也是英偉達。
幾大家芯片公司中,老對手AMD買下ATI后GPU研發進入弱勢地位,英特爾取消了自研GPU計劃。英偉達則在GPU技術方面將巨頭們甩在了身后。
17年前,研發CUDA是一個超前的決定,英偉達的CUDA進化并非一帆風順,黃仁勛則堅持“加速計算”是未來。
英偉達和英特爾在2006年秋天共同開發了基于CUDA的新型GPU,即G80 GPU。而兩者的合作持續不長久,CUDA的研發決策需要英偉達長久地投入大量資金。
從產品特性上來說,CUDA邏輯電路在硬件產品中增加會導致芯片的散熱需求增高,由此也會帶來成本上升、故障增多的風險。
從財報表現來看,CUDA也是一門虧錢生意,在2008年金融危機前后表現得更為明顯。
在最艱難的時候,黃仁勛也沒有中斷CUDA,直到2012年辛頓教授帶隊以GPU代替CPU訓練AI模型做出了AlexNet。
2020年,黃仁勛在接受Barron周刊時強調:“英偉達將推動下一個人工智能大爆炸。”
這5年,為了迎接人工智能,英偉達做了3件事。
第一,2019年3月,英偉達以69億美元收購了高性能計算互聯技術公司Mellanox 。這家公司的主要產品InfiniBand,被認為速度更快、帶寬更高,是數據傳輸的有效方式,而Mellanox是唯一的InfiniBand規范提供商。
第二,英偉達于2022年9月發布新一代AI芯片“Drive Thor”,專為大規模GPU集群協調設計,是英偉達一款完全集成的解決方案。
第三,英偉達推出專為加速計算和生成式AI打造的Hopper架構,H100便是基于此架構的GPU。市場消息稱,H100是英偉達利潤率高達1000%的產品,出貨量超過900噸。
隨著ChatGPT發布,帶動AI服務器出貨量和價格上漲,英偉達的GPU芯片價格水漲船高。英偉達的DGX H100售價總價為268495美元,包含8GPU+4NVSwitch基板等,每臺毛利率接近190000美元。
英偉達的財務收入令人矚目,據悉,過去3個財年的復合年增長率(CAGR)達到35.2%,預計2023年收入將飆升51.4%至408億美元。
GPU市場迎來更多競爭者
Google
谷歌報告稱,云計算收入增長了22%,達到84.1億美元,低于預計的86.4億美元。6月份,谷歌的云計算業務增長了28%。
2023年,谷歌發布了最新的自主研發芯片TPU V4,其性能比上一代芯片顯著提高了2.1倍。通過集成4096個這樣的芯片,超級計算性能大幅提升了10倍,令人印象深刻。
谷歌表示,在規模相當的系統中,TPU V4的性能是英偉達A100的1.7倍,能效也提高了1.9倍。與前代產品TPU V3相似,每個TPU V4由兩個張量核 (TC) 單元組成。每個TC單元由四個128x128矩陣乘法單元(MXU)、一個配備128個通道(每個通道包含16個ALU)的矢量處理單元(“VPU”)和16 MiB的矢量存儲器(“VMEM”)組成。
除了下一代TPU,谷歌還在2023年底開始向開發人員全面提供英偉達的H100 GPU,作為其A3系列虛擬機的一部分。
亞馬遜AWS
在過去的六個季度里,亞馬遜網絡服務部的業績一直在下滑,但第三季度的業績卻趨于穩定,保持了12%的同比增長。該部門的營業收入也同比激增29%,達到約70億美元。
今年5月,AWS推出了基于英偉達 H100 GPU的EC2 P5虛擬機實例。該配置包括八個英偉達 H100 Tensor Core GPU,每個都配備了640 GB的高帶寬GPU內存。它還擁有第三代AMD EPYC處理器、2 TB系統內存、30 TB本地NVMe存儲、令人印象深刻的3200 Gbps總網絡帶寬以及對GPUDirect RDMA的支持。后者可實現節點與節點之間的直接通信,無需使用CPU,從而降低了延遲,提高了橫向擴展性能。
此外,亞馬遜EC2 P5實例可部署在第二代超大規模集群(稱為亞馬遜EC2 UltraClusters)中。這些集群包括高性能計算、網絡資源和云存儲。這些集群可容納多達20,000個H100 Tensor Core GPU,使用戶能夠部署參數高達數十億或數萬億的機器學習模型。
微軟公司
微軟的云計算收入增長了24%,9月份達到318億美元。在微軟的三大業務部門中,智能云的表現最為突出,收入增長了19%,達到243億美元。該部門包括服務器產品和云服務,其中Azure實現了29%的強勁增長,超過了華爾街的預期的26%。
今年3月,微軟在一篇博客文章中宣布,計劃對Azure進行重大升級。此次升級將采用數以萬計的英偉達尖端H100圖形卡,以及速度更快的InfiniBand網絡互連技術。
ND H100 v5實例還采用了英特爾公司最新的第四代英特爾至強可擴展中央處理器,并通過英偉達的Quantum-2 CX7 InfiniBand技術實現低延遲聯網。它們還采用了PCIe Gen5,為每個GPU提供每秒64千兆字節的帶寬,以及可實現更快數據傳輸速度的DDR5內存,以處理最大的人工智能訓練數據集。
成功的初創企業
ChatGPT等應用進一步鞏固了英偉達在人工智能行業的地位。其GPU芯片已成為各種人工智能應用的關鍵。因此,任何希望在這一領域挑戰英偉達的初創公司都面臨著巨大的壓力,因為英偉達已經確立了自己的技術的主導地位和可靠性。
Cerebras
英偉達的A100 GPU已經相當可觀,芯片面積826平方毫米。相比之下,Cerebras的新WSE-2芯片則非常巨大,面積達45225平方毫米,基本上覆蓋了8英寸硅晶片的整個表面。自2016年成立以來,Cerebras已成功獲得7.3億美元的融資。根據CB Insights全球獨角獸俱樂部的數據,該公司目前的估值為40億美元。
Cerebras與Abu Dhabi的G42合作,建造了九臺人工智能超級計算機中的第一臺,該項目耗資超過1億美元。此外,Cerebras還在生成式人工智能領域積極尋找機會。雖然它的CS-2模型在GPT環境下的訓練速度令人印象深刻,但尚未獲得業內主要制造商的采用。
SambaNova
SambaNova成立于2017年,是人工智能芯片行業中資金最雄厚的公司之一。它已成功融資10億美元之巨,其著名支持者包括軟銀和英特爾。這不僅使SambaNova成為融資最多的AI芯片初創公司,也使其成為英偉達最強大的新興競爭對手之一,估值高達50億美元。
SambaNova最近推出了最新的第四代SN40L處理器。這款尖端芯片采用臺積電先進的5納米工藝制造,擁有超過1,020億個晶體管,計算速度高達638 teraflops。它采用獨特的三層內存系統,包括片上內存、高帶寬內存和大容量內存,所有這些設計都是為了高效處理與人工智能工作負載相關的大量數據流。SambaNova聲稱,一個節點中僅有八個這樣的芯片就能支持多達50萬億個參數的模型,幾乎是OpenAI的GPT-4 LLM報告的三倍。
Tenstorrent
Tenstorrent是人工智能芯片行業的另一家著名初創公司,成立于2016年。迄今為止,該公司已獲得近3.35億美元的融資,最近還獲得了三星和現代汽車等大公司的投資,目前估值約為10億美元。
Tenstorrent正瞄準挑戰英偉達在人工智能領域的主導地位,開發采用RISC-V和Chiplet技術的人工智能CPU。值得注意的是,該公司最近與三星達成了生產合作,打算利用三星先進的4nm工藝制造芯片。這一合作彰顯了Tenstorrent致力于推動其技術發展并參與人工智能芯片市場競爭的承諾。
