Anthropic Claude Opus 4.8 實測:數學與程式編寫能力大躍進,但創意寫作與「過度自信」仍是硬傷
編輯核心觀點
- ✦Claude Opus 4.8 在數學運算與程式碼生成展現顯著進步,能精準解決複雜的多項式問題並優化遊戲開發流程。
- ✦模型在創意寫作表現持平,且對於長文本處理的穩定性不足,在 300K token 測試中出現崩潰現象。
- ✦模型展現了強大的邏輯推理能力,卻也因過度自信而產生「具說服力的錯誤」,在特定推理任務中反而不如前代版本。

Claude Opus 4.8:強項更強,弱項依舊
Anthropic 在發布 Claude Opus 4.7 六週後,推出了更新版本 Opus 4.8。儘管基準測試分數與安全性評分有所提升,且價格維持在每百萬輸入 token 5 美元、輸出 token 25 美元的標準,但實測顯示這款模型在能力分布上呈現極端化:它在數學、程式編寫等機械性任務上表現優異,但在創意想像與長文本處理上仍有待加強。
程式開發與數學能力的顯著提升
在程式編寫測試中,Opus 4.8 展現了強大的自我修正能力。它不僅能產出高品質的遊戲原型,還能在開發過程中自動識別並修復錯誤。然而,其代價極高:單次提示詞即耗盡了 Pro 方案的 token 配額,這使得該模型在處理大型專案時,對於一般訂閱用戶而言並不實用。
數學能力則是本次更新最明顯的亮點。面對複雜的 FrontierMath 測試,Opus 4.8 成功辨識出 Dickson/Chebyshev 結構並精確計算出結果,展現了超越前代 Opus 4.7 的 generational gain(世代級增長)。
創意寫作與邏輯推理的「過度自信」陷阱
在創意寫作測試中,Opus 4.8 的表現與 4.7 版本相比並無顯著差異,文字描述雖然精緻,但缺乏流暢感與驚喜感。更值得關注的是其邏輯推理的局限性:
有時,更強的推理能力只是讓模型以更具說服力的方式犯錯。
在一個偵探推理測試中,Opus 4.8 構建了一套邏輯嚴密但完全錯誤的論證,將罪名歸咎於無辜者。這證實了研究人員的擔憂:AI 即使在錯誤時也能表現得極度自信,這對於依賴 AI 進行研究的用戶來說,隱藏著極高的誤導風險。
長文本處理的瓶頸
在長文本測試中,Opus 4.8 出現了明顯的穩定性問題。當輸入達到 300K token 時,模型直接崩潰,無法處理任務。而在 85K token 的測試中,雖然模型成功定位了隱藏資訊,卻因為觸發了內部的安全機制,誤將其判定為「提示詞注入(prompt injection)」而拒絕回答。這顯示 Anthropic 的行為訓練在某些情境下,反而限制了模型完成任務的能力。



