CPU、GPU、NPU，究竟誰才是[AI PC]的主角？

2024-03-22 來源：Ai芯天下

4927

關鍵詞：人工智能英特爾 ARM

[CPU+NPU+GPU]將成為AI PC的算力基座

不同類型的處理器擅長的工作領域各異，這正是異構計算的核心原理——讓專業的人做專業的事。

CPU擅長順序控制，適用于需要低延時的場景，同時也能夠處理較小的傳統模型，如卷積神經網絡（CNN）或特定的大語言模型（LLM）。

而GPU更擅長處理高精度格式的并行任務，例如對畫質要求極高的視頻和游戲。

CPU和GPU作為通用處理器，設計靈活，易于編程，主要負責操作系統、游戲和其他應用。

然而，對于處理大規模的神經網絡計算，CPU的效率相對較低。

NPU則采用數據驅動并行計算的架構，模擬人類神經元和突觸，特別擅長處理視頻、圖像等海量多媒體數據。

與遵循馮諾依曼架構的CPU和GPU不同，NPU通過突觸權重實現存儲計算一體化，運行效率更高，尤其擅長推理。

鑒于終端的功耗和散熱限制，通用CPU和GPU難以滿足生成式AI應用嚴苛且多樣化的計算需求。

這些應用不斷演進和多樣化，單一硬件部署并不合理。

因此，NPU和異構計算成為硬件廠商應對終端側生成式AI挑戰的關鍵。

值得注意的是，盡管GPU在并行計算能力上具有優勢，但仍需與CPU協同工作。

神經網絡模型的構建和數據流傳遞主要在CPU上完成。

然而，GPU存在功耗高、體積大、價格昂貴等缺陷。

性能越高的GPU功耗越高，體積越大，價格也越高昂，這使得一些小型設備和移動設備無法使用。

undefined

NPU將在AI PC落地生花

網絡處理單元（NPU）能夠基于網絡運算的特性，借助軟件或硬件編程，實現多樣化的網絡功能。

相較于傳統的中央處理器（CPU）和圖形處理器（GPU），NPU在執行神經網絡任務時展現出更高的效率和更低的功耗。

與現場可編程門陣列（FPGA）相比，NPU在成本方面更具優勢。

雖然FPGA在靈活性和可編程性方面同樣出色，但主流的FPGA芯片制程節點通常在14納米至45納米之間；

而NPU的制程節點往往低于10納米，因此更適合應用于小型、低功耗的消費級設備，如個人電腦和手機等。

在軟件層面，NPU具備與主流軟件的高度兼容性。通過標準化的接口，如OpenCL、CUDA、OpenVX等，NPU能夠輕松與各種人工智能框架進行交互，并順利集成到不同的軟件環境中。

這使得開發者在模型開發和部署方面更加便捷，同時支持多種編程語言和框架，進一步降低了開發門檻。

綜上所述，NPU的高效能、低功耗、易于編程以及廣泛的軟件兼容性，使其成為人工智能應用中不可或缺的關鍵組件。

undefined

趨勢看好，各大廠紛紛推出相關產品

英特爾近期發布了第14代酷睿Ultra移動處理器，該處理器內置了神經網絡處理單元（NPU）。

據英特爾官方透露，預計至2024年，將有超過230款機型搭載這款酷睿Ultra處理器。

另一方面，蘋果計劃在2024年發布搭載M3處理器的MacBook。

據該公司透露，M3處理器的NPU性能相較于前代產品M1提升了60%。

此外，AMD亦將在2024年初正式推出其首款內置獨立NPU的銳龍8040處理器。

AMD表示，該處理器的加入使得大語言模型性能提升了40%。

值得一提的是，AMD于2023年12月率先發布了銳龍8040系列處理器。這一系列處理器的核心變化之一便是新增了AI計算單元。

隨后，英特爾亦發布了其新一代酷睿Ultra移動處理器。

這款處理器是英特爾40年來的首款內置NPU的產品，旨在在PC上提供高效能的AI加速和本地推理體驗。

此舉被業界視為英特爾客戶端處理器路線圖的重大轉折點。

英特爾將NPU、CPU和GPU共同視為AI PC的三個核心算力引擎。

據公司預測，至2024年，將有超過230款機型搭載酷睿Ultra處理器。

此外，微軟計劃在Windows 12中為AI PC設定最低門檻，要求至少具備40TOPS的算力和16GB的內存。

因此，PC芯片算力達到40TOPS門檻將成為行業的主要目標。

undefined

[算力融合]只是美好的理想

在GPU領域，英偉達RTX系列、AMD RX7000系列以及英特爾ARC系列獨立顯卡均內置獨立的AI計算單元。

然而，英偉達并不生產消費級PC CPU，因此其顯卡AI功能更新主要圍繞顯卡本身，如AI視頻超分、AI色彩強化、AI音頻降噪及AI語音聊天等，似乎主張[AI PC僅需顯卡算力]。

英特爾ARC獨顯雖有XMX矩陣計算單元，但新一代集成于CPU的ARC核顯已取消此設計，使其MTL架構CPU僅依賴內置NPU作為獨立AI計算單元。

即便搭配ARC獨顯，亦無法實現核顯與獨顯AI算力的[疊加]。

AMD在CPU中采用源自其企業級計算卡的XDNA成熟架構作為NPU單元，理論上具有軟件適配優勢。

然而，在RDNA 3獨顯架構中，AMD似乎采用了不同的AI單元設計，導致尚未實現基于AI代碼的游戲畫面超分功能。

此前許多顯卡AI用例主要依賴GPU本身的浮點算力，相較于僅使用顯卡內置AI單元的處理方式，功耗更高。

理論上，CPU、GPU和NPU均可參與AI運算，并根據代碼類型和任務負載實現自動分配的[異構協同]設計，如高通即將上市的驍龍X Elite系列所示。

然而，這種協同運算的實現受到當前硬件方案[各自為戰]的產品構成限制。

英特爾和AMD未來可能通過架構修正解決[算力不統一]問題，而英偉達雖無消費級x86 CPU產品線，但仍有可能通過ARM CPU進入Windows on ARM生態。

undefined

結尾：

根據現有證據，NPU因其對神經網絡計算的獨特優化，在端側和邊緣側處理復雜神經網絡算法時展現出卓越的效率與節能特性。

這一現象正推動AI手機、AI PC及端側AI市場的快速發展，預示著NPU的大規模商用時代即將到來。

登入后，方可留言>>

行業動態

華為“四芯片封裝”專利曝光，或用于下一代 AI 芯片昇騰 910D

第一季度全球智能手機產量達2.89億部

因存在安全隱患，羅馬仕召回491745臺移動電源

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產