法律界 AI 評測標準出爐：Crosby 推出 Redline Bench，破解合約審查「好壞」難題

法律科技的「程式碼審查」時刻

軟體工程領域已習慣透過基準測試（Benchmarks）來檢驗 AI 模型編寫程式碼與除錯的能力，然而法律科技界卻面臨更複雜的挑戰。曾任企業內部律師、現為法律科技新創 Crosby 創辦人的 Ryan Daniels 指出，法律工作的評估標準模糊，不像程式碼執行結果非對即錯。他表示：

「要定義法律工作的『好』或『壞』非常困難。」

由於合約審查涉及大量的主觀判斷，不同律師對於條款的嚴謹度與風險控管有不同見解，這使得法律自動化工具的開發與驗證成為一大難題。為了建立一套業界通用的評測標準，Crosby 成立了專門的「Crosby Intelligence」團隊，成員包括曾於 Stripe 負責詐欺偵測模型的工程師 Sharan Ramjee，以及來自頂尖律師事務所 Sullivan & Cromwell 的律師 Ross Weiser。

Redline Bench：以律師視角量化 AI 表現

Crosby 與專門招募專家人才的 Micro1 合作，邀請資深律師模擬軟體交易談判，並針對合約修改內容標記關鍵點，進而轉化為加權評分標準。在 Redline Bench 的測試流程中，AI 模型需針對相同合約進行修改，隨後由三位評審委員將 AI 的修改結果與律師建立的基準進行比對，並針對每一項修改進行「通過」或「失敗」的投票。

根據 Crosby 發布的首份報告，目前主流模型的表現如下：

ChatGPT 5.5：得分 50.5%
Gemini 3.5 Flash：得分 45.1%
Claude Opus 4.8：得分 44.4%
Fable 5：得分 47.3%（註：此為 Anthropic 暫時撤下該模型前的測試結果）

Crosby 計畫將 Redline Bench 公開，並定期發布各家模型的效能追蹤報告。儘管包括 Harvey 等法律科技公司以及 Anthropic、OpenAI 等模型開發商皆有各自的評測方式，但 Ryan Daniels 認為，由模型開發商自建的測試容易出現「針對性訓練」的偏差，導致結果難以完全信任。