AI 診斷準確率超越專科醫師：MIRA 與 AMIE 揭示醫療 AI 的「自動駕駛」未來

AI 模擬醫院中的「全能醫師」：MIRA 系統

由德勒斯登工業大學（TUD Dresden）與海德堡大學等機構開發的 MIRA（Medical Intelligence for Reasoning and Action），是一款運作於封閉虛擬電子病歷系統中的自主代理 AI。與傳統聊天機器人不同，MIRA 能在超過 8.5 萬種選項中進行決策，涵蓋病史詢問、開立檢驗與影像檢查、判讀結果、擬定鑑別診斷，甚至能執行手術計畫與住院安排。

在針對 500 多個真實急診案例的測試中，MIRA 在八大疾病分類的診斷準確率達到 88.9%。在與人類醫師的直接對決中，MIRA 準確率為 87.8%，遠高於專科醫師團隊的 78.1% 及住院醫師混合團隊的 71.1%。此外，盲測審查員並未在 MIRA 的建議中發現危險藥物交互作用或劑量錯誤，且其在判斷患者是否需要住院的表現上達到零失誤。

Google AMIE：雙代理人架構的臨床對話

Google 開發的 AMIE 則採取不同策略，透過「對話代理人」負責與患者溝通，「背景代理人」則負責交叉比對臨床指南。在針對 100 個多階段看診案例的測試中，AMIE 在治療計畫準確度與指南遵循度上擊敗了基層醫師。研究指出，AMIE 的治療計畫在 95% 的案例中被評為適當，而人類醫師的比例為 72%。

AI 輔助架構的邊際效應遞減

這兩項研究皆揭露了一個關鍵技術趨勢：AI 的效能提升究竟來自模型本身，還是外掛的輔助架構？ Google 研究人員發現，當使用較舊的 Gemini 1.5 Flash 模型時，雙代理人架構能顯著提升表現；然而，當換上較強大的 Gemini 2.5 Flash 模型時，這種架構優勢幾乎消失。這顯示結構化的輔助架構主要是為了彌補舊模型的弱點，而隨著通用模型能力進化，這些「鷹架」工具的重要性正逐漸降低。

專家觀點：模擬與現實的鴻溝

儘管研究結果亮眼，但參與開發的 Jakob Kather 將 AI 代理人比喻為「飛機自動駕駛系統」，強調其能分擔例行任務，但最終責任仍須由醫師承擔。牛津大學醫學社會學教授 Catherine Pope 指出，這些研究距離醫療現場「雜亂且複雜的人類世界」仍有距離。愛丁堡大學健康資訊學教授 Julie Jacko 也補充，目前的優勢多體現在計畫的精確度，而非臨床決策的複雜度處理。