“中國最大”AI 單芯片邃思 2.0 發布：12nm 工藝，支持 HBM2E 內存

2021-07-08 來源：中電網

5463

今天，中國最大 AI 單芯片邃思 2.0 在上海正式發布，這款芯片面向 AI 云端訓練，尺寸為 57.5 毫米 ×57.5 毫米（面積為 3306mm²），達到了芯片采用的日月光 2.5D 封裝的極限，與上代產品一樣采用格羅方德 12nm 工藝，單精度 FP32 算力為 40TFLOPS，單精度張量 TF32 算力為 160TFLOPS，整數精度 INT8 算力為 320TOPS。

燧原科技創始人兼 COO 張亞林表示：“基于邃思 2.0 芯片打造的云燧 T20 加速卡支持的集群規模從上一代云燧 T10 的千張卡提升至 8000 卡，用云燧 T20 可以打造一個 E 級單精度算力集群 CloudBlazer Matrix 2.0。”

E（Exascale）級計算也就是百萬兆級的計算，是目前全球頂尖超算系統新的追逐目標。用一個不精確的說法來解釋百萬兆級計算，一個百萬兆級計算機一瞬間進行的計算，相當于地球上所有人每天每秒都不停地計算四年。

那號稱中國最大 AI 單芯片，有何特色？競爭力到底如何？

▲ 燧原科技 CEO 趙立東（左）與燧原科技 COO 張亞林（右）

中國最大 AI 計算單芯片的兩個“首個”

2019 年底，燧原科技發布了從啟動項目研發到發布用時僅 18 個月的云端訓練芯片邃思 1.0，基于邃思 1.0 的云燧 T10 加速卡單精度算力高達 20TFLOPS。時隔一年半，邃思 2.0 和云燧 T20 就推向市場。之所以說“就”，是因為云端訓練這樣復雜的超高算力芯片通常的迭代周期是兩到三年一代，如果遇上特殊情況可能還會延遲半年。

“我們第一代和第二代產品的迭代節奏快于業內速度，主要有兩方面的原因，一方面是首代產品落地后得到了用戶的反饋，另一方面是我們內部技術和架構的更新，催生了第二代產品。”張亞林說，“從一開始我們就強調精準執行產品路線圖，第二代產品精準符合燧原的產品路線圖。”

至于燧原未來是否會保持云端 AI 訓練芯片一年半一代的更新速度，張亞林表示目前暫不方便透露，但會精準執行其產品路線圖。

想要在整個行業缺芯的大背景下精準執行產品路線圖顯然是一個巨大的挑戰。在 2020 年疫情開始的時候，燧原準備了兩套方案，同時發揮團隊成員超過 15 年以上行業經驗的優勢，以及第一代產品開發過程中建立的供應鏈關系，最終保證產品的如期推出。

張亞林說：“燧原的整個供應鏈非常穩健，客戶不必擔心燧原產品的供貨問題。”

在路線圖精準下，為什么要把芯片面積做大？張亞林解釋，燧原做芯片是高舉高打，做大芯片和高端芯片是我們追求的目標，芯片的尺寸大小背后代表的是科技含量，對于中國芯片行業的貢獻才是更大的價值體現。

但更大的芯片面積，就代表著更高成本。對此，張亞林表示：“一個成熟的產品必須考慮回報率（ROI）。我們需要做的是在定義產品時，計算好這個產品在市場上的整體收入和銷量，從整個產品的成本角度和能夠帶給客戶的價值定義產品。所以我們會持續關注前沿技術，但不會一味追求最新的技術，依然從芯片的性能、成本、功耗三方面考慮。”

邃思 2.0 的特性中，有兩個中國首個，一個是首個支持 TF32 精度的 AI 芯片，另一個是首個支持最先進內存 HBM2E 的產品。

AI 業界一直在追求用更小的數據位寬實現更高的模型精度。因此，AI 模型不斷優化，數據類型不斷推新，AI 芯片作為底層支撐就需要在支持更多數據類型的同時消耗更低能耗。

TF32 代表的是張量單精度 32 位數據類型，相比傳統的 FP32，TF32 在位寬更大的同時，消耗的帶寬以及計算資源顯著更小，被業界視為能夠取代全尺寸單精度數據的革新性數據精度。

“目前業界的判斷是，TF32 對大部分 AI 場景都有應用潛力。我們緊跟國際創新者的步伐，很早就布局數據進度的研究和分析，所以才有了燧原第二代產品就支持 TF32 精度。”張亞林同時指出：“邃思 2.0 支持全精度 AI 精度范圍，包括 FP32、TF32、FP16、BF16 和 INT8。要用一個非常革命性的算力引擎囊括所有的精度，并且能夠做到所有的精度的算力都有效，這是非常大的挑戰。”

打破算力與存儲之間的瓶頸，高效利用數據是 AI 芯片的另一大挑戰。在國內最大的 AI 計算單芯片中，集成了 4 顆三星 HBM2E，支持最高 64 GB 內存，內存帶寬最高達 1.8 TB/s。

“HBM2E 是目前全球最快的存儲芯片，通過集成 4 顆 HBM2E，邃思 2.0 可以實現算力和存儲帶寬的匹配，實現更強算力。我們一直努力把理論算力和理論帶寬匹配，有效控制整個產品的成本。采用最新的技術并不會使我們產品的整體擁有成本增加。”張亞林表示。

在燧原的產品理念中，更好的 AI 芯片只是構建 AI 系統的基礎，客戶最關心的并非底層 AI 芯片的參數。

AI 芯片的比拼上升到系統級

“客戶并不會直接關心芯片層面的理論參數，AI 落地的時候，他們更看重的是包括硬件、軟件、互聯的整體解決方案的有效利用率。所以我們已經從單芯片的維度升級到了更高的系統層面。這也是燧原推出整機多卡、多卡互聯、分布式軟件、云端部署的一整套交鑰匙解決方案的原因。”張亞林說道，“我們也更強調通過低碳綠色化的云燧智算集群服務客戶。”

AI 芯片的比拼要升級到 AI 系統的比拼，從用戶角度，對比 AI 系統的維度就會包含五個：軟硬件一體的性價比、能效比、易用性、遷移成本、范化性。

既然是系統，互聯技術非常關鍵。目前，業界通過不同的遠程直接內存訪問技術（RDMA）進行互聯，比如 InfiniBand、iWARP、RoCE。燧原采用的是自研 GCU-LARE 互聯技術實現云燧 AI 加速卡的多卡集群互聯，同時兼容業界其它 RDMA 技術便于與其它系統互連。

據介紹，燧原自研的 GCU-LARE 多卡集群互聯技術，支持 6 個帶寬 50GB/s 的卡間傳輸端口，總帶寬達到 300 GB/s。

GCU-LARE 具備兩大特色，一個是不需要傳統互聯技術的連接卡或橋接卡，可以直接通過線纜的方式直連，降低成本。另一個是能夠根據用戶的需求和機房的實際情況，定制不同的拓撲結構，能夠輕松構建 4000 卡以上的大型訓練集訓拓撲，實現定制化集群產品 CloudBlazer Matrix。

在云燧 T20 的發布會上，燧原發布了云燧智算集群 CloudBlazer Matrix 2.0，最高可實現 1.3E（130000T）的單精度只能算力集群。

“云燧的互聯接口在單口速度保持不變的前提下，接口數量從 T10 的 4 個增加到 T20 的 6 個，帶寬提升 150%。用云燧 T20 可以打造中國 E 級單精度算力集群。”張亞林表示。

“在軟件易用性和遷移成本方面，我們投入了大量精力。”

與云燧 T20 一起發布的還有軟件平臺馭算 2.0，進行了多方面提升，包括：為用戶提供高度契合業界標準的編程接口，以支持高性能自定義算子開發；全面優化的動態性模型支持；引入業界先進的 MLIR 編譯框架；基于啟發式自適應方法的算子泛化實現以及圖優化策略，可以廣泛支持更多標準模型和自定義模型訓練。

張亞林介紹：“馭算 2.0 的重點是提升易用和泛化，同時也能降低遷移用戶的成本。我們的產品從第一代開始就采用的熱啟動的方式降低用戶的遷移難度和成本，也就是在進行硬件架構設計的時候就已經考慮了客戶的需求，在落地的時候得到了客戶認可。如今第二代產品，同樣采用熱啟動的方法，使用更多的用戶反饋進一步降低遷移難度和成本。”

“在軟件層面，現在業內比較通用的兩個 AI 框架是 TensorFlow 和 Pytorch，如果他們的模型完全基于框架開發，切換到燧原的產品只需要硬件切換，軟件可以無縫切換。軟硬件一定是一體化，也只有軟硬一體化設計才對客戶有更高價值。”張亞林進一步表示。

因此，馭算 2.0 還支持資源虛化、重組以及系統級設備虛擬化，使用戶在業務部署和資源整合上可擁有更為靈活的方法；支持 4000 卡規模以上的集群分布式訓練；升級系統兼容性方案、部署方案和 RAS，支持主流操作系統最新發型版，開箱即用，簡化客戶定制系統集成，對客戶的部署和運維更加友好。

實際上，芯片實力的比拼從來都不是單芯片的比拼，而是系統和生態實力的比拼。縱觀目前全球前幾大芯片巨頭，持續迭代的芯片只是其保持競爭力的基礎，圍繞芯片的互聯技術、軟件棧以及不斷拓展的生態才是競爭的護城河。

燧原既然已經從單芯片的能力拓展到系統層面，那如何挑戰云端訓練芯片的霸主英偉達？

聚焦三個業務群，與霸主差異化競爭

“作為一個追趕或者新生者，差異化競爭是必然的。燧原進行差異化競爭時一直注重三個部分，第一是我們提供的算力性價比一定要越來越好，第二是中國有最豐富的業務場景，也有最豐富業務場景使用者，所以我們與最豐富的業務場景做更多深入的結合，并進一步做業務場景的泛化，第三就是本土化、定制化、客戶的服務開發。”張亞林說。

據了解，燧原從 2020 年公布第一個落地客戶騰訊開始，一直堅持的是三條業務線：泛互聯網、垂直行業（金融、交通、電力、醫療、工業等）以及新基建。

“我們在這三個業務線上不斷發力，構筑整個業務群，三個業務群都已經實現客戶接入，同時也拿到非常多的客戶反饋。有了因第一代產品開拓的戰略合作伙伴，利用第二代產品我們可以把這三個業務群的場景和客戶群擴大，這也是燧原的生態護城河。”張亞林表示。

燧原科技 CEO 趙立東還宣布了燧原的異構計算生態 ——“燎原”計劃，目標是以 AI 為起點構建通用異構計算生態，構建標準化技術體系，共建完整生態服務數字中國。

三個業務群對燧原的產品生態也有不同的意義。商業客戶更看重整個業務，或產品的性價比。傳統行業更多看重的端對端的解決方案，而不是一個簡單的加速卡。

張亞林解釋，燧原與商業客戶一起打磨產品，建立原始創新生態。在傳統行業客戶端打磨端對端的場景生態。同時，燧原科技響應國家綠色化的號召，實現集群的功耗、能效進一步的優化，真正能夠在新基建層面做出更加普惠的綠色算力，符合國家關于碳中和、碳達峰的政策導向。

“對于初創公司而言，剛開始需要盡快證明我們的執行力、產品以及商業化的價值，所以與一些戰略伙伴展開了合作，但這并不代表我們的產品是專用的。隨著我們第二代產品的推出，會進一步泛化場景和拓展客戶，從一個點切開一條線最后達到一個面。并且，對于任何一家初創公司而言，智能計算的任何一個市場都已經足夠龐大。”張亞林說。

除此之外，燧原還通過與之江實驗室、上海交通大學、西安交通大學等高校的合作，構建生態的同時培養人才。

對于與國內和國際巨頭的競爭，張亞林的態度是，“目前對國內芯片行業的發展是天時地利人和，我認為國內半導體和 AI 賽道百花齊放是好事，我們會堅持自己，志存高遠、腳踏實地。追趕國際巨頭，作為中國芯片公司有市場、政策和資金的優勢，我們的普惠智能算力只是第一步，未來燧原會在異構計算領域不斷拓展產品線，提供更多異構計算的整體解決方案。”

小結

芯片性能參數的提升是最容易感知和理解的產品升級，但這卻不是芯片公司最強大的競爭力所在，圍繞芯片構建的接口、標準、互聯技術，以及軟件棧、客戶認可、合作伙伴生態才是以芯片為核心構建競爭力公司的終極目標。

這也是在 AI 時代眾多芯片初創公司宣稱的算力超越行業領導者，卻未能獲得大量訂單的關鍵所在。很好的現象是，已經有以燧原為代表的 AI 芯片初創公司，開始去強調 AI 算力系統的價值。

登入后，方可留言>>

行業動態

DDR4 16Gb售價飆升同等DDR5的兩倍！

北方華創完成芯源微改組，國產半導體設備廠商多維發力

同質化的GPU云市場，誰能逃離內卷？

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產