端側AI即將大爆發,本地運行大模型離不開這類芯片
自生成式AI爆火以來,我們接觸和使用更多的其實是所謂的云端AI,如OpenAI的ChatGPT、百度的文心一言等,他們都是部署在提供商的服務器上,用戶通過網頁或應用的程序等方式進行訪問并使用,最重要的一點是他們都要聯網才能使用。
而為了讓生成式AI更接地氣,一種叫做端側AI的概念應運而生。相對于需要聯網才能使用的云端AI而言,端側AI可以將大模型(LLM)以輕量形式部署在本地,從而使搭載端側AI的設備即便在斷網情況下也能實現AI功能,與設備對話,提高工作及生活效率。
但是,就目前來說并非所有的設備都滿足端側AI的硬件條件,尤其是當微軟和蘋果接連發布Colipot+PC和Apple Intelligence平臺和功能后,要求設備中必須有這樣一塊芯片,NPU。而什么是NPU,它在端側AI中又能起到什么作用?
什么是NPU?
NPU是Neural Processing Unit(神經網絡處理器)的首字母縮寫。NPU 專用于運行與神經網絡/機器學習/AI 任務相關的數學函數。雖然這些可以是獨立的芯片,但它們越來越多地與更熟悉的CPU和GPU組件一起直接集成到片上系統 (SoC)中。
NPU有各種形狀和尺寸,通常根據芯片廠商而略有不同。現在已有不同的型號的NPU出現在智能手機領域,比如高通在其驍龍處理器中安裝了Hexagon,谷歌擁有用于云和移動Tensor芯片的TPU,三星則在自己的Exynos集成NPU。
這個趨勢現在也在筆記本電腦和PC領域興起。例如,最新的Apple M4內置了神經引擎,Snapdragon X Elite平臺中采用了高通的Hexagon功能,AMD和英特爾已開始將NPU集成到其最新的芯片組中。
正如我們所見,NPU是專門為處理機器學習工作負載(以及其他數學繁重的任務)而構建的。通俗地說,NPU是一個非常有用的,甚至是必不可少的組件,用于在設備上而不是在云中運行AI。毫無疑問,如今人工智能幾乎無處不在,將AI直接整合到設備中是這一過程的關鍵一步。
今天的許多人工智能處理都是在云中完成的,但由于幾個原因,這并不理想。首先是延遲和網絡要求,我們無法在離線時訪問工具,或者在高峰時段可能需要等待漫長的處理時間。通過互聯網發送數據也不太安全,尤其是在自己的設備上運行時。
簡而言之,AI最好能直接在設備上運行。然而,人工智能任務的計算量非常大,在傳統硬件上運行不佳。如果你有嘗試在筆記本電腦上通過Stable Diffusion生成圖像,你可能已經注意到了這一點。對于更高級的任務來說,它可能會非常慢,盡管CPU可以很好地運行許多“更簡單”的AI任務。
解決方案是采用專用硬件來加速這些高級任務,而NPU在這方面無疑比CPU更高效,它們的性能通常以每秒數萬億次操作 (TOPS) 表示。說到TOPS,智能手機和早期的筆記本電腦NPU的額定值為數十TOPS。從廣義上講,這意味著它們可以加速基本的AI任務,例如相機物體檢測以應用散景模糊或摘要文本。如果想運行大型語言模型或使用生成式AI快速生成媒體,將需要數百或數千TOPS范圍內更強大的加速器/GPU。
生成式AI革新人機交互界面,端側大模型應用有望迎來爆發
近年來,大模型不僅在對話式文本方面取得巨大成功,也在圖像處理、音視頻生成等多模態領域展現出強大的潛能。隨著生成式AI在人們日常工作及生活中被廣泛應用,數據處理和存儲需求急劇增加,使得智能計算體系結構發生根本性轉變。
大模型對人機交互界面產生了深刻的影響,生成式AI已成為人與終端設備的最新交互界面。在生成式AI加持下,從寫作、編程、繪畫到視頻創作,多種模態的內容創作門檻正被前所未有地降低,人機交互的流程也被大大簡化。
在楊磊看來,端側設備的核心交互問題關乎入口,這是爭奪用戶時間、持續時長、資金投入的關鍵所在,也是業內競爭的焦點。以典型的端側設備——手機為例,在本地設備上運行大模型已是兵家必爭之地,各家手機大廠都在想方設法占據這一入口。
在此過程中,一方面,多模態模型正成為大勢所趨;另一方面,針對不同的應用場景、設備或成本考量,眾多廠商都推出了不同參數規模的模型。以智能手機為例,旗艦手機芯片算力可達40~50TOPS,中檔手機的算力在10~20TOPS的范圍內,而入門級手機目前尚未專門配備AI能力,更多地依賴于CPU的通用計算能力。
據楊磊預測,隨著半導體技術的持續演進,旗艦手機的算力水平有望達到100TOPS,入門級手機也將從當前的無算力水平提升至5~10TOPS范圍。預計兩年后,不論是高價位段的手機,還是性價比優良的千元機,都有望具備本地部署AI大模型的硬件計算能力。
此外,在楊磊看來,除智能手機和PC等終端設備外,如今智能化水平不斷提速的新能源汽車以及目前炙手可熱的人形機器人也是大模型落地的硬件載體之一。在大會現場,楊磊列舉了一些數字:目前智能汽車的算力已經能達到500TOPS左右,一些機器人方案也在按照這一算力規模進行相應的技術規劃。
盡管AI大模型的應用日趨普及,比如手機上安裝了Kimi、豆包、文心一言等諸多應用,但這些應用尚未達到殺手級應用的水平,實際上很多端側硬件的計算能力已經領先于相關應用的發展。很多用戶更多是出于獵奇心理來試用這類應用,并沒有產生持續、頻繁且高度黏性的使用需求。
“我們目前仍處于硬件先行、應用后發的階段。安謀科技則希望結合自身獨特的技術優勢,打造軟硬一體且極具競爭力的解決方案,推動AI大模型在端側設備加速落地。”楊磊談道。
芯片廠商積極布局異構算力
當前,CPU+GPU+NPU協同的混合算力架構已成為AI PC的算力基礎。
其中,英特爾開發的XPU混合算力是代表性解決方案,其CPU+GPU+NPU異構方案,通過嵌入獨立NPU的強算力性能大幅提升終端AI能力;基于XPU混合架構,英特爾推出了Meteor Lake第一代酷睿Ultra 處理器,疊加OpenVINO等工具鏈,開發者能夠實現XPU三種算力的混合部署和調度;高通則在2023年10月發布了集成ARM CPU與AI引擎NPU芯片X Elite,針對AI性能進行優化,單NPU模塊算力達到16TOPS、總算力達到75TOPS,支持AI PC運行百億級參數本地大模型,首發廠商覆蓋聯想、戴爾、惠普等頭部PC廠商;
AMD推出AI PC芯片銳龍8040系處理器,主要面向客戶端和消費端PC設計,CES 2024上AMD則于2023年12月發布第一款集成NPU模塊的桌面級CPU——Ryzen 8000G CPU,算力達到單NPU16 TOPS、總共39 TOPS;
蘋果發布的M3圖形處理器則在功耗減半的情況下,即可達到與M1相當的性能,而在峰值功耗下更可實現高達65%的性能提升,同時,具備16核CPU、40核GPU的M3 Max將可以被用于研發AI軟件,性能表現出色。
總的來看,AI手機、AI PC有望成為未來手機和個人電腦的重要升級方向,而NPU則是AI手機、AI PC中最重要的硬件增量方向之一,值得重視。
端側AI產業鏈受益
中信建投指出,端側AI核心在于手機和PC,AI Phone和AI PC將開啟新時代。
“從今年2月份舉行的世界移動通信大會,高通展示了其手機端離線運行大模型,到5月份微軟開發者大會高通展示其PC運行AI大模型,再到近期英特爾、聯想等發布AI PC加速計劃、發布首款AI PC等,可以看出,國內外廠商持續發力AI Phone和AI PC,端側AI將走入新的時代。”
同時,AI PC核心升級在于芯片。
AI PC不同于傳統PC的主要之處在于其SoC芯片中要有AI模塊,通過AI芯片中的NPU等模塊為硬件終端提供算力支撐,從而運行端側AI大模型。過去PC芯片主要是以Intel為代表的x86架構芯片,AIPC的提出要求了SOC芯片有AI算力,在端側AI推理能力方面,過去手機上就搭載了NPU,高通經驗積累深厚,Intel的筆記本芯片則是CPU+GPU。生態上,Windows也開始全力支持ARM體系,自去年開始了多輪支持Arm架構芯片的操作系統更新,高通大概率會在PC市場上拿到部分份額。除芯片外,DRAM、計算模組等有望迎來新的升級與市場機遇。
此外,大模型向智能終端(邊緣端)滲透,模型壓縮和邊緣側計算性能提升是兩大關鍵。目前從這兩個方向上,都可以看到不錯的進展預期,大模型在邊緣端滲透初見端倪。這類場景我們認為率先會在手機、PC、智能駕駛、具身智能、元宇宙、工業控制等場景落地。
產業鏈角度,邊緣AI核心在于引入邊緣側的AI能力,進一步增強邊緣側的算力能力、連接能力。重點包括AI芯片、算力/連接模組、邊緣網關/邊緣服務器/邊緣控制器等硬件、AI算法/邊緣計算平臺等軟件環節。從投資角度來看,建議優先圍繞這幾類產業鏈環節、兼顧業績彈性優選標的。
中信建投強調,“我們看好端側AI產業進展,尤其是AI Phone和AI PC領域,其已有相關產品落地,將傳統PC、Phone結合上AI能力有望帶動整個PC、Phone產業鏈復蘇;通過將大模型賦能終端硬件,AI應用浪潮將有望開啟。”
