Anthropic Claude Opus 4.8 實測：數學與程式編寫能力大躍進，但創意寫作與「過度自信」仍是硬傷

Claude Opus 4.8：強項更強，弱項依舊

Anthropic 在發布 Claude Opus 4.7 六週後，推出了更新版本 Opus 4.8。儘管基準測試分數與安全性評分有所提升，且價格維持在每百萬輸入 token 5 美元、輸出 token 25 美元的標準，但實測顯示這款模型在能力分布上呈現極端化：它在數學、程式編寫等機械性任務上表現優異，但在創意想像與長文本處理上仍有待加強。

程式開發與數學能力的顯著提升

在程式編寫測試中，Opus 4.8 展現了強大的自我修正能力。它不僅能產出高品質的遊戲原型，還能在開發過程中自動識別並修復錯誤。然而，其代價極高：單次提示詞即耗盡了 Pro 方案的 token 配額，這使得該模型在處理大型專案時，對於一般訂閱用戶而言並不實用。

數學能力則是本次更新最明顯的亮點。面對複雜的 FrontierMath 測試，Opus 4.8 成功辨識出 Dickson/Chebyshev 結構並精確計算出結果，展現了超越前代 Opus 4.7 的 generational gain（世代級增長）。

創意寫作與邏輯推理的「過度自信」陷阱

在創意寫作測試中，Opus 4.8 的表現與 4.7 版本相比並無顯著差異，文字描述雖然精緻，但缺乏流暢感與驚喜感。更值得關注的是其邏輯推理的局限性：

有時，更強的推理能力只是讓模型以更具說服力的方式犯錯。

在一個偵探推理測試中，Opus 4.8 構建了一套邏輯嚴密但完全錯誤的論證，將罪名歸咎於無辜者。這證實了研究人員的擔憂：AI 即使在錯誤時也能表現得極度自信，這對於依賴 AI 進行研究的用戶來說，隱藏著極高的誤導風險。

長文本處理的瓶頸

在長文本測試中，Opus 4.8 出現了明顯的穩定性問題。當輸入達到 300K token 時，模型直接崩潰，無法處理任務。而在 85K token 的測試中，雖然模型成功定位了隱藏資訊，卻因為觸發了內部的安全機制，誤將其判定為「提示詞注入（prompt injection）」而拒絕回答。這顯示 Anthropic 的行為訓練在某些情境下，反而限制了模型完成任務的能力。

Anthropic Claude Opus 4.8 實測：數學與程式編寫能力大躍進，但創意寫作與「過度自信」仍是硬傷

編輯核心觀點

Claude Opus 4.8：強項更強，弱項依舊

程式開發與數學能力的顯著提升

創意寫作與邏輯推理的「過度自信」陷阱

長文本處理的瓶頸

資料來源

相關文章

OpenAI 收購 Ona，意圖讓 AI 寫程式從「單次對話」進化為「長期自主任務」

Anthropic 的 AI 安全防線惹議：Fable 5 秘密降級引發研究員反彈

AI 寫程式太貴？開發者掀起「去雲端化」反叛，開源工具 Goose 挑戰 Claude Code 霸權

OpenAI 啟動 AI 價格戰：Codex 導入「額度儲存」機制，意圖挖角 Anthropic 用戶