英偉達迎來最強對手,AI芯片的關鍵僅僅只是“快”嗎?
在AI技術的浪潮中,一匹黑馬突然殺出重圍,它就是Groq——一家以“地表最強推理”自居的AI芯片初創公司。近日,Groq發布了一款全新的AI芯片LPU(Language Processing Unit),聲稱其推理速度比英偉達GPU快10倍,而成本僅為十分之一。這一消息震動了整個科技界,也引發了市場對AI芯片格局的重新思考。
Groq的LPU芯片究竟有何魔力?為何能在短時間內引起如此大的關注?
首先,讓我們通過一組數據來直觀感受Groq的速度。在回答“什么是中性粒細胞?”這一相同問題時,Groq僅需6秒就能給出完整答案,而GPT-4則需要25秒。同樣,在數數的任務中,Groq也表現出了顯著的速度優勢。這樣的性能優勢,讓Groq在AI推理領域嶄露頭角。
然而,Groq的優勢并非僅止于此。根據ArtificialAnalysis.ai的數據顯示,Groq推出的Mixtral 8x7B Instruct API以每秒處理約430個token的速度刷新了業界吞吐量記錄。而且,其每百萬個token的價格僅為0.27美元,遠低于其他競爭對手。在最新的LLM基準測試中,Groq不僅在價格上優勢明顯,而且在延遲與吞吐量等關鍵性能指標上也擊敗了Microsoft Azure、Perplexity等競爭對手。
那么,Groq為何能在短時間內取得如此驚人的成績呢?這主要得益于其獨特的技術路徑。Groq從頭設計了一個張量流處理器(TSP)微架構設計,這一設計打破了傳統CPU和GPU架構的局限,為AI推理提供了全新的解決方案。通過軟件控制紅綠燈的方式,Groq的TSP技術讓同一方向的車輛快速前進,大大提高了效率和速度。
當然,我們也要看到,盡管Groq在速度上取得了顯著優勢,但它并沒有研發新的AI模型,而只是一個模型啟動器。這意味著,Groq的成功更多依賴于其硬件技術的突破,而非模型的創新。因此,未來Groq能否繼續保持領先地位,還需時間來驗證。
全球巨頭挑戰者不少
英偉達在2024財年第四季度公布了財報,結果可謂驚艷,讓人瞠目結舌。股價一舉飆升16%,市值增加2770億美元,創下單日市值增長的最高紀錄!這樣的增長勢頭令人瞠目結舌,讓業界對英偉達的未來信心倍增!
英偉達的全年業績同樣令人驚艷,總營收達到609億美元,同比增長了126%,凈利潤更是高達298億美元,同比增長了581%!這不僅是數字的背后,更是英偉達在AI領域卓越實力的有力印證。數據中心業務的爆發增長,使英偉達從游戲顯卡制造商逐漸蛻變為AI芯片產業的領導者。
然而,在這場股市的盛宴中,英偉達并非沒有對手。其面臨著兩大主要問題:
AI芯片賽道的寬度: 目前,AI芯片市場尚處于早期發展階段,其最終規模和發展方向仍存在不確定性。英偉達雖然占據領先地位,但能否長期保持優勢還有待觀察。
競爭對手的追趕: 英特爾、AMD、蘋果等科技巨頭都在發力AI芯片領域,并取得了一定進展。隨著競爭的加劇,英偉達的時間窗口可能會逐漸縮小。
微軟、亞馬遜、Meta、谷歌等科技巨頭都在積極籌備自研AI芯片的計劃。這也讓人們開始思考,英偉達的霸主地位是否能夠抵擋住這些巨頭的聯手反擊?
隨著云服務和人工智能的迅猛發展,這些科技巨頭紛紛布局自研AI芯片的領域,不僅為自身節省巨額支出,更是為了在AI生態中占據更大的話語權。谷歌的Gemini AI芯片、亞馬遜的自研芯片、Meta即將投產的第二代芯片Artemis,都是他們雄心勃勃的表現。
但是,自研AI芯片也不是一帆風順的。高投入和低兼容性成為這些科技巨頭自研AI芯片所面臨的難題。不僅需要投入巨大的資金和人力,還需要解決與其他AI軟硬件的兼容性問題。這或許是英偉達保持領先地位的關鍵所在。
2024年,人工智能芯片展望
2023年,隨著以大語言模型為代表的人工智能市場持續火爆,我們看到了人工智能成為了半導體行業的最大推動力,也見證了Nvidia驚人的銷售業績以及其市值創下新高。隨著新年的到來,我們也對2024年人工智能芯片做一個展望。
市場需求:人工智能仍將繼續火熱
從市場需求側來看,我們認為人工智能在2024年仍然將繼續火熱,這也將繼續推動相關的芯片行業保持良好的態勢。然而,與2023年不同的是,我們認為在2024年,人工智能市場的需求會同時從云端慢慢擴展到終端,這也將驅動相應的芯片市場發展。
首先,從云端需求來看,大語言模型仍然將是主要的增長點。同時,圖像生成類模型也會保持快速增長的勢頭。具體來說,大語言模型仍然是各大科技公司競相研發的核心技術,包括OpenAI,微軟,谷歌,華為,阿里巴巴,百度等中外科技公司都在大力研發下一代的大語言模型,而包括中國移動等傳統行業的公司也在入局大語言模型領域,同時還有大量的初創公司在依靠風險投資的支持也在大力開發大語言模型。大語言模型的百家爭鳴時代才剛剛開始并且遠遠沒有落下帷幕,在這樣的群雄逐鹿的時間節點,預計對于芯片的需求也會快速增長。大語言模型的特點是需要海量的數據和訓練芯片資源,而且同時由于格局尚未塵埃落定有大量的公司在研發新的模型,因此總體來說訓練芯片的需求會非常大。
而隨著云端人工智能交互進入多模態時代,聊天機器人已經不僅僅可以用文字回答,而且還可以完成看圖說話以及圖像甚至視頻生成等任務,因此我們認為,圖像生成類的模型,以及圖像和語言結合的多模態模型也將會成為云端人工智能的一個重要增長點。
除了云端之外,我們認為終端(包括手機和智能車)也將會成為人工智能的新增長點。手機上的人工智能雖然早已不再新鮮,但是隨著生成模型的成熟,我們可望看到這類模型落地手機端并賦能新的用戶體驗。手機端生成類模型又分為兩種,一種是圖像生成類模型,即以擴散模型(diffusion model)為代表的模型,這類模型可以實現高質量超分辨以及高質量修圖,從而可望給用戶的拍照和照片編輯帶來革命性的變化。另一類應用是語言模型——與運行在云端的大語言模型(LLM)相對地,過去幾個月我們看到了小語言模型(SLM)的興起。小語言模型和大語言模型一樣,都是主要用于語言的理解和生成(或者說,與人對話);小語言模型在參數量變少之后,可以更靈活地應用在一些專用的場景中(而不是像大語言模型一樣試圖覆蓋所有場景)并且提供很高的準確性,同時還有可能運行在終端設備中。
從智能車領域,一方面隨著端到端多任務大模型帶來的革命性性能提升(例如BEVFormer帶來的俯瞰場景識別性能提升,以及商湯在2023發布的UniAD帶來的多任務性能大幅提升)會推動這類模型進一步落地并且推動芯片的需求,另一方面則是來自于語言模型人機交互這類源自于云端的人工智能應用遷移到智能車場景。
因此,我們預測,2024年將會是人工智能持續火熱的一年,與2023年不同的是除了云端人工智能保持熱門之外,我們預計終端應用場景也會成為新的人工智能需求增長點。
云端市場格局分析
云端人工智能芯片市場,我們預計Nvidia仍然將保持領跑地位,但是AMD等競爭者預計也將獲得更多市場份額。
首先,如前所述,云端市場目前主要的需求在于大語言模型和生成式圖像的訓練和推理。由于這些模型對于計算資源需求非常大,而且訓練任務占的比例很大,因此給相應的芯片設了一個很高的門檻。這里的門檻包括了:
- 芯片算力:為了支持巨大的計算量,芯片需要有足夠的計算單元,內存容量和帶寬
- 分布式計算支持:對于大模型來說分布式計算是必須的
- 軟件兼容性和生態:對于訓練來說,對于模型進行反復快速迭代是一個很強的需求,因此必須有足夠好的生態來支持不同的模型算符快速迭代
目前而言,Nvidia在這一個領域仍然是領先,無論是其芯片和分布式計算性能,還是軟件生態兼容性來說,都是首選。這也是為什么2023年Nvidia的H100成為了人工智能相關公司最寶貴的資源,在市場上供不應求。在2024 H2,Nvidia將會開始出貨H200,相對于H100來說,H200擁有40%和內存帶寬提升以及80%的內存容量提升,因此可望會被人工智能公司爭相購買。
在2024年,我們預計AMD在云端人工智能領域也將更加站穩腳跟,并由此開始慢慢走向更大的市場份額。2023下半年,AMD發布了最新的MI300X用于高性能計算的GPU模組,該芯片包含大芯片粒(12個處理器/IO芯片粒),并且相比于H200來說,擁有更高(1.6倍)的FP8算力,以及更大的內存容量和帶寬(1.2倍)。從AMD公布的實測數據來看,MI300X的推理能力大約比H100強20%-40%,訓練性能則和H100持平。我們認為,軟件生態(包括編譯器性能)將成為決定AMD在云端人工智能市場能否成功的決定性因素,而這一點預計在2024年將會有所改善:OpenAI將在最新發布的Triton框架中加入對于AMD MI300X的支持,而各大初創公司的人工智能加速軟件框架也在加強對于AMD GPU的支持。隨著芯片性能和軟件生態的提升,以及各大科技公司對于Nvidia GPU一家獨大地位的擔憂態度,我們預計2024年對于AMD的GPU在人工智能市場將會是重要的一年,預計將會看到更多客戶的應用。
從供應鏈角度,由于云端人工智能芯片對于HBM3等高帶寬內存有著強力的需求,我們認為HBM內存以及高級封裝(如CoWoS)的產能仍然將會火熱,這也將推動相應半導體企業擴大產能,以及積極研發下一代內存和高級封裝技術。從這個角度看,人工智能應用仍然將會是推動半導體新技術高速發展的核心動力。
終端市場格局分析
除了云端市場外,我們預計人工智能對于終端市場也有更強的需求,這也將推動人工智能成為終端計算芯片中越來越重要的差異化元素。
在手機端,人工智能的使用頻率將會進一步增強,這也會推動芯片加入更多相應的算力,并且將人工智能支持作為SoC的核心亮點。例如高通發布的Snapdragon 8 Gen 3就以“低于一秒的延遲實現圖像生成任務”作為一個重要賣點,估計這樣的人工智能能力將會深度集成到手機廠商的操作系統中。除了高通這樣的第三方芯片公司之外,自研手機芯片的系統廠商預計也會繼續加碼人工智能;蘋果雖然在這方面保持低調,但是預計在未來會以各種方式(加大NPU算力,或者是加大軟件支持)的方法來開始賦能更多人工智能在iPhone上的新拍攝用戶體驗。vivo在自研ISP芯片領域已經有了數年積累,而目前生成式人工智能對于拍攝體驗的提升恰好和ISP有很強的協同作用,這也是2023年8月vivo發布的v3 ISP芯片強調了生成式人工智能作為一個核心亮點。未來,預計會看到越來越多這樣的芯片強調人工智能對于用戶體驗上的賦能作用。
在智能汽車領域,Nvidia雖然不如在云端強勢,但是其Orin系列芯片仍然是各大車廠考慮的標準芯片模組。我們認為,隨著人工智能大模型對于智能駕駛的賦能作用逐漸加強,無論是第三方芯片還是車廠自研的芯片都將會進一步強化對于人工智能算力的投入,同時也推動芯片性能的快速提升——最近,無論是蔚來發布新自研芯片的算力規格,還是特斯拉傳出將使用TSMC 3nm作為下一代芯片的生產工藝,都在提示著我們2024年人工智能將在智能車芯片領域扮演越來越重要的角色。
