OpenAI 釋出 LifeSciBench:一套評估 AI 在生命科學研究中的能力的基準
編輯核心觀點
- ✦OpenAI 釋出了一套名為 LifeSciBench 的基準,用於評估 AI 模型在生命科學研究中的能力。
- ✦LifeSciBench 包含 750 個由專家撰寫的任務,涵蓋七個工作流程和七個生物學領域。
- ✦這套基準評估 AI 模型的能力,包括證據處理、設計和優化、科學推理、驗證和操作等方面。

OpenAI 釋出了一套名為 LifeSciBench 的基準,用於評估 AI 模型在生命科學研究中的能力。這套基準包含 750 個由專家撰寫的任務,涵蓋七個工作流程和七個生物學領域,包括基因組學、藥物化學、臨床和轉化科學等。
基準的內容
LifeSciBench 的任務是由 173 名具有生物技術或製藥業經驗的博士撰寫的。每個任務都包含一個提示、支持文檔和評分標準。評分標準包括 19,020 個標準,平均每個任務有 25 個標準。
基準評估 AI 模型的能力,包括證據處理、設計和優化、科學推理、驗證和操作等方面。評估結果顯示,即使是最強大的模型也只能通過大約三分之一的任務。
模型的表現
OpenAI 評估了五個模型,包括 GPT-Rosalind、GPT-5.5、Gemini 3.1 Pro、GPT-5.4 和 Grok 4.3。結果顯示,GPT-Rosalind 模型在整體表現上領先其他模型,但其他模型在某些任務上也表現出色。
模型在結構化判斷和科學溝通等方面表現較好,但在設計和優化、分析等方面則較為困難。模型也難以處理附件和生成精確的輸出。
LifeSciBench 的評估結果顯示,AI 模型在生命科學研究中的能力仍然有限,但這套基準可以幫助我們更好地了解模型的優缺點和未來的發展方向。



