返回首頁

AI 診斷準確率超越專科醫師:MIRA 與 AMIE 揭示醫療 AI 的「自動駕駛」未來

編輯核心觀點

  • AI 系統 MIRA 與 Google AMIE 在臨床模擬測試中,於診斷準確度與治療計畫擬定上均展現超越人類醫師的潛力。
  • 研究顯示,現階段醫療 AI 的優勢多來自於結構化的輔助架構,但隨著底層模型能力提升,這些架構的邊際效益正逐漸遞減。
  • 專家提醒,目前的實驗多基於模擬環境,AI 在處理真實醫療場景的複雜度與責任歸屬上,仍與臨床實務存在顯著落差。
AI 診斷準確率超越專科醫師:MIRA 與 AMIE 揭示醫療 AI 的「自動駕駛」未來

AI 模擬醫院中的「全能醫師」:MIRA 系統

由德勒斯登工業大學(TUD Dresden)與海德堡大學等機構開發的 MIRA(Medical Intelligence for Reasoning and Action),是一款運作於封閉虛擬電子病歷系統中的自主代理 AI。與傳統聊天機器人不同,MIRA 能在超過 8.5 萬種選項中進行決策,涵蓋病史詢問、開立檢驗與影像檢查、判讀結果、擬定鑑別診斷,甚至能執行手術計畫與住院安排。

在針對 500 多個真實急診案例的測試中,MIRA 在八大疾病分類的診斷準確率達到 88.9%。在與人類醫師的直接對決中,MIRA 準確率為 87.8%,遠高於專科醫師團隊的 78.1% 及住院醫師混合團隊的 71.1%。此外,盲測審查員並未在 MIRA 的建議中發現危險藥物交互作用或劑量錯誤,且其在判斷患者是否需要住院的表現上達到零失誤。

Google AMIE:雙代理人架構的臨床對話

Google 開發的 AMIE 則採取不同策略,透過「對話代理人」負責與患者溝通,「背景代理人」則負責交叉比對臨床指南。在針對 100 個多階段看診案例的測試中,AMIE 在治療計畫準確度與指南遵循度上擊敗了基層醫師。研究指出,AMIE 的治療計畫在 95% 的案例中被評為適當,而人類醫師的比例為 72%。

AI 輔助架構的邊際效應遞減

這兩項研究皆揭露了一個關鍵技術趨勢:AI 的效能提升究竟來自模型本身,還是外掛的輔助架構? Google 研究人員發現,當使用較舊的 Gemini 1.5 Flash 模型時,雙代理人架構能顯著提升表現;然而,當換上較強大的 Gemini 2.5 Flash 模型時,這種架構優勢幾乎消失。這顯示結構化的輔助架構主要是為了彌補舊模型的弱點,而隨著通用模型能力進化,這些「鷹架」工具的重要性正逐漸降低。

專家觀點:模擬與現實的鴻溝

儘管研究結果亮眼,但參與開發的 Jakob Kather 將 AI 代理人比喻為「飛機自動駕駛系統」,強調其能分擔例行任務,但最終責任仍須由醫師承擔。牛津大學醫學社會學教授 Catherine Pope 指出,這些研究距離醫療現場「雜亂且複雜的人類世界」仍有距離。愛丁堡大學健康資訊學教授 Julie Jacko 也補充,目前的優勢多體現在計畫的精確度,而非臨床決策的複雜度處理。

這些系統可以支援並減輕醫療專業人員的負擔,接管例行任務,但最終責任永遠屬於醫師。—— Jakob Kather

研究團隊亦坦承,目前的系統尚未準備好進入真實臨床環境,仍需解決隱藏在推理步驟中的潛在錯誤。

資料來源

本文由 AI 綜合上述來源編譯整理,內容僅供參考;著作權歸原出處所有。

相關文章