英偉達一口氣收購兩家AI企業,打的什么主意?
英偉達又出手了!繼去年投資30多家創企后,近期該公司又投資了兩家人工智能初創企業Run:ai與Deci。
當地時間4月24日,英偉達宣布,已經同Run:ai簽訂最終收購協議。公司認為,這能夠幫助客戶更有效地利用其AI計算資源。
Run:ai成立于2018年,是一家基于開源容器編排平臺Kubernetes的工作負載管理和編排軟件提供商。當下,AI的部署變得越來越復雜,工作負載分布在云、邊緣和本地數據中心基礎設施中。管理和編排生成式AI、推薦系統、搜索引擎和其他工作負載需要復雜的調度,從而優化系統級別和底層基礎設施的性能。
而Run:ai的產品能夠實現高效GPU集群的資源利用。簡單來說,其產品能夠支持開發人員并行運行多個AI工作負載,從而提高AI芯片的利用效率,降低了成本。
目前,Run:ai的解決方案已與英偉達的DGX、DGX SuperPOD、Base Command、NGC容器和AI Enterprise軟件等產品結合,英偉達DGX和DGX Cloud的客戶將能夠使用Run:ai的AI工作負載功能。
英偉達官方并未透露收購交易金額等條款詳情。但據以色列媒體Calcalist等相關媒體日前報道,交易金額為7億美元。
同樣收獲英偉達青睞的另一家AI創企Deci,也致力于實現AI芯片的“降本增效”。據The Information報道,英偉達同意收購以色列初創公司Deci,無法獲悉具體的收購金額。
據Deci官網,該公司成立于2019年,其提供高效的生成式AI和計算機視覺模型,可部署在各種環境中,同時保持數據安全并控制推理成本。
據了解,其解決方案通過調整AI模型大小,從而使其能夠在AI芯片上更便宜地運行。目前,Deci已與微軟、英特爾、AMD、亞馬遜等多家科技巨頭達成合作。
不難看出,英偉達這兩筆投資的目的都在于幫助其客戶更加有效的利用自家AI芯片產品。
The Information相關報道指出,兩位了解交易情況的人稱,Run:ai提高AI芯片效率的能力可能會吸引更多客戶使用NVIDIA DGX Cloud。另外,英偉達可能會提供Deci以及CUDA軟件,從而使開發人員能夠更便宜地構建AI驅動的應用程序。
英偉達在官方通稿中亦指出,客戶期望從更好的GPU利用率、改進的GPU基礎設施管理以及開放式架構帶來的更大靈活性中受益。
英偉達“最強AI芯片”誕生
2024 GTC大會上,黃仁勛介紹了運行AI模型的新一代芯片和軟件。他表示,新一代的B200 GPU擁有2080億個晶體管,可以提供高達20 petaflops的FP4性能。相比之下,H100僅為4 petaflops。
此外,將兩個B200 GPU與單個Grace CPU 結合在一起的 GB200,可以為LLM推理工作負載提供30倍的性能,并且顯著提高效率。
黃仁勛還強調稱:“與H100相比,GB200的成本和能耗降低了25倍!
關于市場近期頗為關注的能源消耗問題,B200 GPU也交出了最新的答卷。
黃仁勛表示,此前訓練一個1.8 萬億參數模型,需要8000 個 Hopper GPU 并消耗15 MW電力。但如今,2000 個 Blackwell GPU就可以實現這一目標,耗電量僅為4MW。
在擁有1750億參數的GPT-3大模型基準測試中,GB200的性能是H100的7倍,訓練速度是H100的4倍。
值得一提的是,B200 GPU的重要進步之一,是采用了第二代Transformer引擎。
它通過對每個神經元使用4位(20 petaflops FP4)而不是8位,直接將計算能力、帶寬和模型參數規模翻了一倍。
而只有當這些大量的GPU連接在一起時,第二個重要區別才會顯現,那就是新一代NVLink交換機可以讓576個GPU相互通信,雙向帶寬高達1.8TB/秒。
而這就需要英偉達構建一個全新的網絡交換芯片,其中包括500億個晶體管和一些自己的板載計算:擁有3.6 teraflops FP8處理能力。
在此之前,僅16個GPU組成的集群,就會耗費60%的時間用于相互通信,只有40%的時間能用于實際計算。
一石激起千層浪,“最強AI芯片”的推出讓網友紛紛贊嘆。
其中英偉達高級科學家Jim Fan直呼:Blackwell新王誕生,新的摩爾定律已經應運而生。
無芯片,不AI
AI芯片是AI算力的核心。
有說法稱,對標ChatGPT,做好一個大模型的最低門檻就是1萬塊A100的芯片。前面說到,隨著人工智能應用場景和數據規模的擴大,算法模型的復雜度呈指數級增長,特別是深度學習成為主流,需要更快的計算速度。雖然CPU可以執行AI算法,但由于內部邏輯多,對于AI算法來說效率不高。因此,出現了專門的AI芯片,它們設計用于高效并行計算,加速AI計算過程,并提高性價比。
廣義而言,AI 芯片指的是專門用于處理人工智能應用中大量計算任務的模塊,除了以 GPU、FPGA、ASIC 為代表的 AI 加速芯片,還有比較前沿性的研究,例如:類腦芯片、可重構通用 AI 芯片等。狹義的 AI 芯片指的是針對人工智能算法做了特殊加速設計的芯片。
這里面,GPU是AI芯片主力軍,因為它擁有卓越的高性能計算能力和通用性,適用于處理復雜算法和通用型人工智能平臺。而隨著人工智能技術、平臺和終端的不斷成熟,隨著視覺、語音、深度學習的算法在FPGA以及ASIC芯片上的不斷優化,此兩者也有望逐步占有更多的市場份額。
根據VMR數據,全球和中國的GPU市場規模預計將繼續快速增長。2021年全球GPU市場規模達到334.7億美元,預計到2030年將增至4773.7億美元,年復合增長率達34.4%。2020年中國GPU市場規模為47.39億美元,預計到2027年將增至345.57億美元,年復合增長率為32.8%。這表明GPU在人工智能領域的需求將繼續擴大,并將成為市場的重要推動力量。
尋找中國版英偉達,期待國產替代空間
對于AI在下一輪科技革命中的地位,各國已經形成共識,都在紛紛搶灘。從中美對比來說,競爭優勢的爭奪就主要涉及前面提到的算法、大數據資源和算力三方面。在算法設計方面,雙方沒有明顯差距,主要依賴設計團隊的智慧和靈感;在大數據資源方面,中國占據著絕對優勢,雙方在大數據分析技術上相近。然而,決定人工智能產品的關鍵要素還包括“算力",計算能力是計算機的核心能力,這也是中美兩國長期競爭超級計算機領域的原因之一。國內大模型與國外的主要差距也體現在算力層面,沒有算力基礎,后面算法等發展都無法進行。
在AI芯片領域,國外的芯片巨頭占據了大部分市場份額,有著明顯的先發優勢,比如英偉達、AMD、英特爾的營收幾乎代表整個GPU行業收入。而國內的AI芯片產業起步較晚,與世界先進水平存在較大差距,國內AI芯片市場也較為分散,集中度較低,發展空間巨大。
不過,國內一批新興力量正在崛起,競爭梯隊越發豐富。從國內AI芯片廠商格局來看,以大算力或者高性能計算芯片為代表,一梯隊,有成熟產品、批量出貨的企業,主要包括寒武紀、華為海思、百度昆侖芯、燧原科技,這四家有2-3代更多的產品,技術能力、軟件能力都有一定積累;二梯隊,主要包括以AI芯片起家的壁仞科技、天數智心、摩爾線程、沐曦等。壁仞科技去年發布的產品規格很高,但主要還停留在紙面數據,實測數據、實際性能方面業界和第三方評測機構評價沒有那么高,軟件層面從使用角度來講也還有很大的成長空間。其他幾家也陸續有產品推出,但技術能力還停留在推理層面,不像一梯隊企業有更成熟的產品經驗;三梯隊,如海光、景嘉微等。技術能力還有待市場的認可和驗證。
從產品來說,目前國內已經批量生產的產品大多都是A100的上一代,如昆侖芯三代、思遠590、燧思3.0等,不過,各公司正在研發更新一代產品,縮小國內外差距。向后看,基于國家政策的大力支持,以及自主可控的迫切需求,中國廠商有望迎來更大的國產替代機遇。而如果國內產品能夠替代英偉達的算力產品,將會是非常大的機會。數據中心建設方面也需要服務器,會帶動國內提供大型服務器的廠商,比如浪潮信息、中科曙光等,以及光模塊、調節芯片和散熱技術,需求都會受益于大模型浪潮。相信隨著國內企業的持續投入和創新,以及政府的支持,中國在人工智能領域的發展勢頭仍然很強,有望逐步縮小與國外競爭對手的差距。
