華為發布AI推理創新技術UCM,降低對HBM依賴
關鍵詞: 華為UCM AI推理 高帶寬內存 推理體驗 技術創新
8月12日,華為在“2025金融AI推理應用落地與發展論壇”上發布其AI推理創新技術UCM(推理記憶數據管理器),通過創新架構設計降低對高帶寬內存(HBM)的依賴,提升國產大模型推理性能,推動AI產業自主化進程。
該技術以KV Cache為中心,融合了多類型緩存加速算法工具,對推理過程中產生的KV Cache記憶數據進行分級管理,旨在擴大推理上下文窗口,實現高吞吐、低時延的推理體驗,同時降低每Token的推理成本。
據介紹,推理體驗直接關系到用戶與AI交互時的感受,包括回答問題的時延、答案的準確度以及復雜上下文的推理能力等方面。當前,隨著AI產業已從“追求模型能力的極限”轉向“追求推理體驗的最優化”,推理體驗直接關聯用戶滿意度、商業可行性等,成為衡量模型價值的黃金標尺。
該技術采用“內存訪問重構”“計算架構革新”“軟硬協同閉環”三大創新,通過分布式內存池化、超節點級聯架構等技術優化數據流,顯著提升推理效率。
當前全球HBM市場由三星、SK海力士等主導,且受到美國出口政策的影響。根據2024年12月2日發布的新規,美國禁止向中國出口HBM2E(第二代HBM的增強版)及以上級別的HBM芯片。不僅美國本土生產的HBM芯片受到限制,任何在海外生產但使用了美國技術的HBM芯片也受到出口管制。該禁令于2025年1月2日正式生效。
而這一技術不僅提升了推理效率,還可能減少對HBM(高帶寬內存)技術的依賴,提升國內AI大模型的推理性能,完善中國AI推理生態的關鍵部分。
華為在AI推理領域的技術突破并非首次,此前已有多項成果,如與北京大學聯合發布的DeepSeek全棧開源推理方案,以及在昇騰平臺上實現的多項性能突破。此外,華為與科大訊飛的合作也取得了顯著成果,實現了國產算力上MoE模型的大規模跨節點專家并行集群推理,使推理吞吐提升3.2倍,端到端時延降低50%。
華為此次發布的UCM技術不僅在技術層面有所創新,還可能對相關產業鏈產生積極影響,推動半導體、軟件開發、計算機設備等領域的結構性機會。
華為發布的UCM技術旨在通過優化推理過程中的數據管理,提升AI推理的效率和性能,為AI在金融、醫療、交通等領域的廣泛應用提供支持。
