打通“最后七公里”,存算一體成為中國自動駕駛芯片“成熟”的關鍵
ChatGPT大熱,生成式大模型已無限趨向通用智能,這也就意味著AI應用將會進入到2.0時代。所謂AI 2.0時代,即由AI將由很多小模型提供的弱AI,演進為由大模型提供的通用智能強AI,這勢必會帶來眾多應用場景的集體爆發。
業內人士認為,爆發將主要來于:一是來自于替代,原先很多有小模型提供的弱AI的場景將會由通用智能來替代;二是將催生新的AI應用場景,并產生新的服務和產品形態。
這些未來應用場景的爆發,對AI算力芯片是一個新挑戰,要有更大的算力以及更高的能效比。由此,億鑄智能副總裁徐芳認為:存算一體的大算力芯片將是中國AI芯片“換道”超車的機會。
存算一體AI芯片或將成為自動駕駛算力終極解決方案
ChatGPT的火爆預示了自動駕駛的發展方向:大模型和高算力。Transformer這類神經網絡大模型,模型運算量平均每兩年會翻750倍;視頻、自然語言處理和語音模型,模型運算量平均每兩年翻15倍。可以預見,摩爾定律將面臨失效,同時 "存儲墻”和"功耗墻” 將成為AI芯片發展的關鍵制約因素。
目前,大部分傳統的計算架構是馮諾依曼架構,優點是非常靈活,但面對AI遇到的問題是出現算力瓶頸,同時存在大型數據搬運,所以帶來很大的功耗消耗。
存算一體技術有望解決大算力與低功耗的矛盾。存算一體,是指在存儲器中對數據進行運算,從而避免數據搬運產生的"存儲墻”和"功耗墻”, 極大提高數據的并行度和能量效率。
在汽車領域,高等級自動駕駛汽車某種意義上將成為行走的超算中心,車端算力正不斷拔高到1000TOPS以上。云端計算電力充足,并可以通過冷卻系統制冷,但是在汽車端是通過電池供電有限,同時面臨著液冷散熱、成本方面等問題。
存算一體 AI 芯片,將為車企提供一個全新的技術路徑選擇。
在自動駕駛 SoC 領域,后摩智能是國內首家存算一體自動駕駛 AI 芯片廠商,其在2022年成功點亮了業內第一款存算一體大算力AI芯片,并跑通智能駕駛算法模型。這款驗證樣片采用22nm工藝制程,算力達20TOPS,可擴展至200TOPS,尤其是計算單元能效比高達20TOPS/W。
當前,國內AI大算力芯片有兩個主要技術方向,一就是ASIC架構,采用該架構的公司包括了寒武紀、華為、黑芝麻,地平線等;另一個就是GP GPU架構,就是英偉達所主導的GP GPU路線。這兩個架構,存與算是分離的。她從技術層面解釋說,“就技術本身而言,存算分離的架構下,85~90%的芯片空間,是用于數據搬運,而不是用來進行數據的計算。也就是先要把數據從存儲的結構里面要搬到計算單元,而且是每計算一次就要搬運一次,最后計算的結果,又送回至存儲的結構中。如此往復,這種架構,顯而易見,對能源的消耗和計算效率的影響非常大。”
當然,徐芳副總裁也認為,“并不能用零和博弈的方式看所有的技術,每一種技術都有它的價值, ASIC、GP GPU以及存算一體的技術,各有所長,如果能競合得當,可實現相得益彰。”
但就面向未來而言,徐芳副總裁指出,從能效比、對先進工藝制程的依賴、以及算力的發展空間這三方面來看,AI算力芯片中,存算一體的計算架構無疑會有更大更好的機會。據了解,業內頭部企業也提出了類似的方案,AMD在今年初,提出了存內計算;三星也認為,存儲器在人工智能服務器中的重要性將會超過英偉達的GPU。
她強調,“AI算力芯片,除了有較高的能效比之外,還需要更好的性價比并兼顧通用性,此外,在中國AI大算力芯片發展,還要能夠解決先進工藝依賴這一外部問題。”
徐芳副總裁進而指出,“存算一體的技術架構,其優勢在于既能夠用傳統的CMOS工藝,又能夠快速實現量產,進而突破AI芯片的算力困境。”也是從這里來觀察,存算一體的大算力芯片也將是中國在算力芯片領域換道超車的機會。
存算一體芯片“最后七公里”
盡管存算一體在技術層面能夠支撐芯片產業出現新機會,但要真正創業做新業務卻沒有那么容易。在吳強看來,存算一體還有“最后七公里”要走。
“學術上實現的是從無到有的過程,但要應用在商業,還需要先補齊技術的可實現性這兩公里,再補上應用到具體場景的工程性問題這五公里。”
具體而言,在這款芯片的定義、設計過程中,也經過了不少討論和取舍。
例如,存算一體技術依托的存儲類型非常豐富,包括以SRAM、DRAM為代表的易失性存儲器,以Flash為代表的非易失性存儲器,還有以MRAM和RRAM為代表的新型非易失性存儲器。后摩當前選擇了制作工藝更為成熟的SRAM。
又如,從電路技術來看,存內計算有數字計算和模擬計算兩種,后摩首先選擇了運算精度更高、可靠性更好的數字存算。
但對吳強來說,這都是綜合市場需求和技術可行性之后的更優選擇,后摩當下戰略聚焦于智能駕駛芯片,更大的有效算力、更高的可靠性都是為目標芯片服務的。
只不過,摸著石頭過河,確實要面臨比同行更多的挑戰。
比如在電路的仿真驗證中,一般用EDA軟件進行在線的設計,而后用可編程的FPGA進行電路設計的驗證。但是,后摩智能的芯片設計規模已經超過了市面上任何一個可以找到的FPGA,要怎么做芯片驗證呢?
后摩智能想到把芯片的不同功能進行切割,在不同的FPGA上進行驗證。關于如何把芯片做合理的剪裁以適應部分的驗證,后摩團隊反復討論、多次嘗試,最終找到了最恰當的方法。
最終,后摩智能交上了鴻途H30這份答卷,相比業界先進的7nm工藝,后摩采用了更成熟的12nm工藝,但功耗比前者減少了50%,性能有兩倍以上的提升。
經緯創投投資董事童倜認為,除了存算一體技術上有巨大的優勢之外,“后摩團隊的優勢還在于團隊的人員構成非常完善,在很早就擁有了存算一體相關領域的學術專家、曾經量產過大算力AI芯片的人,和設計過車規芯片的人”。
在童倜看來,尤為難得的是,在創立之初,后摩團隊就已經對所在的賽道、市場需求有了清醒的認知,也對整個芯片研發及企業經營中可能會遇到的問題有了一定的預期和規劃。
這或許要歸功于吳強及后摩團隊過往在芯片行業豐富的從業經驗,有十年以上芯片行業的工作經驗的研發人員占比很高,經歷過車規芯片量產和導入的初創企業奮斗全過程的員工也不在少數,他們能夠深刻理解研發組織、客戶溝通等的重要性。
未來,芯片將成為大型主機廠重要投資方向
主機廠造芯這個問題爭議極大,業內普遍認為,一方面主機廠無法與專業IC設計公司比拼開發速度、效率、產品性能等,另一方面單顆芯片至少應有百萬量級的出貨量才能不斷攤薄開發成本,以具備性價比。
但實際上芯片對于智能網聯新能源汽車,無論是性能、成本、還是供應鏈安全,都已占據了絕對的主導地位,傳統燃油車芯片需求量一般在700-800顆/輛,新能源車芯片需求量在1500-2000顆/輛,高級別自動駕駛新能源車芯片需求量可高達3000顆/輛,且部分高價值芯片成本高昂、面臨缺貨甚至斷貨風險。
從大型主機廠的角度,顯然不想被某家芯片廠商綁定,甚至主機廠早已開始下場自主造芯。從吉利汽車來看, 吉利已實現7nm座艙SoC量產裝車,IGBT也已實現成功流片,億咖通和芯擎科技合作研發的自動駕駛SoC芯片AD1000預計最快到2024年3月流片。
我們判斷,芯片將像動力電池一樣,成為大型主機廠加強底層基礎能力建設的重要投資方向。2022年,三星宣布將為谷歌自動駕駛部門Waymo制造芯片;通用Cruise也宣布將自主開發自動駕駛芯片;大眾汽車則宣布將與中國自動駕駛SoC廠商地平線成立合資公司。
在2022中國電動汽車百人會論壇上,地平線在“芯片+算法+工具鏈+開發平臺”的商業模式基礎上,增加開放其高性能自動駕駛處理器架構BPU IP授權,以此來滿足自研能力強的部分車企的需求,從而增加車企的差異化競爭力和研發創新的速度。
作為IP供應商支撐車企自研計算方案,BPU IP授權模式已確認一家合作伙伴,還有一家車企正在推進中。
造芯的技術門檻并不算特別高,主要門檻是擁有足夠資本實力和訂單量,現在芯片行業就是外購IP搭積木的方式來搭芯片,包括CPU、GPU、NPU、存儲、NoC或總線、ISP、視頻編解碼等。未來隨著Chiplet生態圈、工藝水平不斷完善,自研自動駕駛SoC芯片門檻會更低,無需買IP,直接買die(IP芯片化)然后再封裝即可,大幅度降低門檻。
以特斯拉HW 3.0芯片為例,其架構設計基于三星Exynos-IP,CPU、GPU、ISP設計采用ARM IP,片上互聯(NOC)采用 Arteris IP,特斯拉僅自研 NNA AI加速器IP,最終由三星代工。
針對HW 4.0芯片,特斯拉進一步與博通合作開發,為了提高AI算力,最簡單有效的辦法就是堆砌MAC單元和 SRAM存儲器, 對于AI操作來說,主要瓶頸是存儲。而缺陷在于,SRAM存儲器占用了大量的芯片面積,面積與芯片的成本成正比,同時SRAM難以通過先進制程工藝來增加密度和減少面積。
因此,特斯拉第一代FSD HW 3.0裸芯片面積為260平方毫米,第二代FSD HW 4.0裸芯片面積預計為300平方毫米,總成本預計至少增加40-50%,按照我們的估算,HW3.0芯片成本已降至90-100美元,而HW 4.0成本應在150-200美元,但即使如此,特斯拉自研芯片的性價比也要遠遠高于外購。
長期來看,百萬以上銷量的主機廠自主“造芯”是可行的。
