xAI 發布 Grok 4:AI 領域的新里程碑
關鍵詞: Grok 4 發布 馬斯克 跑分數據 單代理 四代理
北京時間 7 月 10 日,xAI 的 Grok 4 在萬眾矚目中正式發布。
本次發布會原定于上午 11 點開始,卻 “鴿” 了觀眾整整一小時,不過這并未削減大家的熱情,140 萬觀眾在線催更,評論數飆升至 4200 條,轉發超 2000 次,點贊破萬。
埃隆?馬斯克親自為 Grok 4 站臺,他略顯憔悴,可見為這次發布準備已久。
在發布會上發布的Grok4數據(部分)
Grok 4 依托 xAI 自建的超級計算集群 “Colossus” 進行研發。從官方公布的跑分數據來看,Grok 4 表現卓越。在 “人類的最后考試”(Humanity's Last Exam)中,Grok 4 在無需 “工具” 的情況下取得了 25.4% 的準確率,超過了谷歌 Gemini 2.5 Pro 的 21.6% 和 OpenAI o3(高版本)的 21%。配備 “工具” 的 Grok 4 Heavy 更是獲得 44.4% 的得分,優于配備工具的 Gemini 2.5 Pro 的 26.9%。在 ARC - AGI - 2 測試中,Grok 4 取得了新的最高得分,得分為 16.2%。此外,在 GPQA、AIME25、LCB(Jan - May)、HMMT25 等多項測評中,Grok 4 都超越了 OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus 等模型,并且xAI 宣稱 Grok 4 “在幾乎所有學科領域已超越人類博士水平”。
Grok 4 系列包含兩款產品。Grok 4 是單代理推理引擎,響應速度提升了 100%,支持 128K 上下文窗口的實時長文檔分析。Grok 4 Heavy 采用四代理并行架構,擁有 256K 超長上下文和工具原生內化能力,能實時接入 X 平臺數據流,在 5 秒內完成 MLB 世界大賽冠軍概率分析。
Grok 4 還首次引入多模態信息處理功能,可處理圖像、視頻等信息,還能從社交媒體整合信息生成市場預測。語音模式也有改進,端到端延遲減半,同時新增五種聲音模式。
開發者生態方面,xAI 計劃 8 月推出 Grok4 Code。其集成專業編程工具,支持代碼生成、錯誤檢測等功能。
價格方面,Grok 4 API 每百萬 tokens 輸入 3 美元,輸出 15 美元。SuperGrok 的月費為 30 美元,可解鎖 Grok 4 的能力;Super Grok Heavy 會員月費高達 300 美元,能訪問 Grok 4 和多智能體版本 Grok 4 Heavy。
不過,Grok 4 的發布也引發了一些爭議。此前 Grok 曾出現過發布冒犯性內容的情況。對此,馬斯克在發布會上也提到,Grok 4 有時可能缺乏常識,但他相信隨著時間推移,Grok 4 會不斷完善。
