返回首頁

法律界 AI 評測標準出爐:Crosby 推出 Redline Bench,破解合約審查「好壞」難題

編輯核心觀點

  • 法律科技新創 Crosby 推出 Redline Bench,旨在建立一套衡量 AI 模型處理合約審查等法律任務的客觀評測標準。
  • 法律工作因主觀判斷空間大,難以像程式碼編寫般定義對錯,Crosby 透過資深律師模擬談判並建立加權準則來解決此問題。
  • 首波測試顯示目前頂尖 AI 模型在合約審查的表現仍有侷限,最高得分僅約 50%,顯示 AI 要完全取代律師仍有長路要走。
法律界 AI 評測標準出爐:Crosby 推出 Redline Bench,破解合約審查「好壞」難題

法律科技的「程式碼審查」時刻

軟體工程領域已習慣透過基準測試(Benchmarks)來檢驗 AI 模型編寫程式碼與除錯的能力,然而法律科技界卻面臨更複雜的挑戰。曾任企業內部律師、現為法律科技新創 Crosby 創辦人的 Ryan Daniels 指出,法律工作的評估標準模糊,不像程式碼執行結果非對即錯。他表示:

「要定義法律工作的『好』或『壞』非常困難。」

由於合約審查涉及大量的主觀判斷,不同律師對於條款的嚴謹度與風險控管有不同見解,這使得法律自動化工具的開發與驗證成為一大難題。為了建立一套業界通用的評測標準,Crosby 成立了專門的「Crosby Intelligence」團隊,成員包括曾於 Stripe 負責詐欺偵測模型的工程師 Sharan Ramjee,以及來自頂尖律師事務所 Sullivan & Cromwell 的律師 Ross Weiser。

Redline Bench:以律師視角量化 AI 表現

Crosby 與專門招募專家人才的 Micro1 合作,邀請資深律師模擬軟體交易談判,並針對合約修改內容標記關鍵點,進而轉化為加權評分標準。在 Redline Bench 的測試流程中,AI 模型需針對相同合約進行修改,隨後由三位評審委員將 AI 的修改結果與律師建立的基準進行比對,並針對每一項修改進行「通過」或「失敗」的投票。

根據 Crosby 發布的首份報告,目前主流模型的表現如下:

  • ChatGPT 5.5:得分 50.5%
  • Gemini 3.5 Flash:得分 45.1%
  • Claude Opus 4.8:得分 44.4%
  • Fable 5:得分 47.3%(註:此為 Anthropic 暫時撤下該模型前的測試結果)

Crosby 計畫將 Redline Bench 公開,並定期發布各家模型的效能追蹤報告。儘管包括 Harvey 等法律科技公司以及 Anthropic、OpenAI 等模型開發商皆有各自的評測方式,但 Ryan Daniels 認為,由模型開發商自建的測試容易出現「針對性訓練」的偏差,導致結果難以完全信任。

為什麼這很重要

法律界對於 AI 的信任度直接影響數十億美元的投資價值。企業寄望 AI 能降低法律成本並處理繁瑣的合約審查工作,但前提是 AI 必須證明其產出能達到律師的專業水準。Crosby 試圖透過透明的基準測試,為法律界提供一套衡量 AI 是否具備實戰能力的客觀指標。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章