OpenAI o1 在急診診斷中勝過醫生：哈佛研究揭示 AI 醫療的關鍵轉折

來源： The Guardian（2026/4/30）— Harvard Study，Science 期刊

如果你某天因為胸痛衝進急診室，給你做出初步診斷的，可能不再是一位穿著白袍的醫生，而是一個你看不見的 AI 模型。

這不是科幻情節。哈佛醫學院的研究團隊在頂級學術期刊《Science》上發表了一項大規模臨床研究，結果讓整個醫學界為之側目：OpenAI 的 o1 推理模型在急診分診診斷中的準確率達到 67%，而人類醫生僅有 50% 到 55%。在急診室那種分秒必爭、資訊極度有限的壓力環境下，AI 的判斷比真人醫生高出超過十個百分點。

研究共同作者、哈佛醫學院的 Arjun Manrai 博士在高達 600 多則 HN 討論中被反覆引用的那句話，值得一字不漏地讀一遍：「我認為我們的發現並不代表 AI 會取代醫生。但它確實意味著，我們正在見證一項真正深刻的技術變革，它將重塑醫學。」

這場實驗的設計：為什麼它比其他 AI 醫療研究更有說服力？

過去幾年，AI 醫療的研究很多，但大多數測試的是 AI 在標準化考試或模擬病例中的表現——那種環境和真實臨床情境差距很大。哈佛這次的設計很特別，它有幾個值得注意的特色：

真實患者，真實病歷

研究團隊隨機選取了 76 位實際到波士頓某醫院急診室就診的患者，然後將每位患者的標準電子病歷——包含生命徵象數據、基本人口統計資訊，以及護理師寫的幾句話描述患者為何來就診——同時交給 OpenAI 的 o1 和兩位人類醫生。

這裡的關鍵在於：給 AI 看的資料和給人類醫生看的完全一模一樣。不多，也不少。沒有患者的表情、沒有他們的痛苦程度、沒有醫師親自問診的直覺反饋。就是急診醫生在分診時手邊那幾行文字資料。

結果：AI 在資訊最少時表現最好

AI 在 67% 的案例中給出了精確或非常接近的診斷，而人類醫生只有 50% 到 55%。這個差距在統計學上被研究者標記為「顯著」。

更有趣的是，當患者資訊更完整時（包含更多檢驗報告和病史細節），AI 的診斷準確率進一步上升到 82%，而經驗豐富的人類專科醫生則在 70% 到 79% 之間。雖然後者的差距在統計學上不顯著，但一個模式已經很清楚：AI 在需要快速決策且資訊極少的「分診情境」中，相對人類的優勢最大。

研究者對此的解釋非常合理：人類醫生在資訊不足的情況下，容易受到經驗捷徑（heuristics）和認知偏誤的影響——比如最常見的「錨定效應」，當醫生看到一個明顯的症狀時，會不自覺地把後續判斷都錨定在這個方向上。AI 沒有這種問題。

不只是診斷：治療計畫的表現更驚人

研究還進行了第二階段的測試，規模更大。他們讓 AI 和 46 位醫生分別審視五個複雜的臨床案例，要求他們給出長期的治療計畫——從抗生素療程、慢性病管理到臨終照護規劃。

結果差距更懸殊了：

AI 的治療計畫評分：89%
人類醫生使用傳統資源（如搜尋引擎和教科書）的評分：34%

這是一個將近三倍的差距。當然，這裡的設計對人類醫生有些不利——在現實中，醫生會和同事討論、會翻閱病例文獻、會運用多年累積的經驗做出綜合判斷。但即使考慮到這些因素，AI 在結構化臨床推理上的優勢仍然非常明顯。

一個令人印象深刻的真實案例

研究中有一個案例特別值得講。一位患者因為肺栓塞（血塊阻塞肺部血管）被送入急診室，症狀持續惡化。人類醫生判斷是抗凝血藥物失效，打算更換用藥方案。

但 AI 注意到了一個被所有人都忽略的細節：該患者有全身性紅斑性狼瘡（SLE）病史。AI 推斷肺部的發炎可能是狼瘡引起的，而不是抗凝血藥物失效——兩者的治療方向完全不同。後續檢查證實 AI 是對的。

這個案例之所以重要，在於它展示了 AI 在跨領域資訊整合上的獨特能力。人類醫生在時間壓力和資訊有限的雙重夾擊下，很容易陷入「最常見的解釋」思維模式（心理學上稱為「確認偏誤」）。而 AI 不會因為「最常見」就偏好某個診斷——它只是冷靜地計算每一種可能性。

醫療現場的真實採用情況

你可能會想：這些數據很漂亮，但現實中有醫生真的在用嗎？

答案是肯定的，而且比例遠比你想像的高。

根據美國醫學會（AMA）今年四月剛出爐的調查報告，近五分之一（接近 20%）的美國醫生已經在日常臨床診斷中使用 AI 工具。英國皇家內科醫師學會（Royal College of Physicians）的統計則顯示，英國有 16% 的醫生每天使用 AI 技術，另外 15% 每週至少用一次。最常見的應用場景就是「臨床決策支援」——也就是說，醫生在做診斷或決定治療方案前，先問 AI 的意見。

換句話說，在你下次走進診間時，幫你看病的醫生可能已經在你看不到的地方，默默地用 AI 當作自己的第二意見來源了。這不是未來，而是現在。

但醫生不會被取代——為什麼？

看到這裡，你可能覺得這是在鋪陳「醫生準備失業」的結論。但研究團隊本身反而極力避免這種論述。

Manrai 博士的原話非常明確：「我不認為我們的發現意味著 AI 會取代醫生。」

他有幾個關鍵論據：

1. AI 沒有眼睛，也沒有耳朵

這次測試中，AI 只看文字資料。它沒有看到患者走進急診室時痛苦的表情、沒有聽到他們呼吸的聲音、沒有觀察到他們步伐不穩的樣子。這些非語言訊息在臨床判斷中佔據了極其重要的位置。

共同作者 Adam Rodman 博士——同時也是 Beth Israel Deaconess 醫療中心的臨床醫生——形容得很傳神：在這次測試中，AI 更像是一位「基於病歷資料給出第二意見的顧問」，而不是那位站在病床邊、看著你眼睛說話的醫生。

2. AI 出錯時，誰負責？

這是英國醫生對 AI 應用的最大擔憂，也是所有國家的醫療監管機構目前最頭痛的問題。

Rodman 博士坦言：「目前完全沒有一套正式的問責框架。」如果 AI 給出了錯誤的診斷建議，醫生照做了，結果造成醫療傷害——責任是醫生的、醫院的、還是 AI 公司的？這個問題在法律上幾乎是真空狀態。

3. 患者需要的是人，不是機器

Rodman 進一步指出一個非常根本的事實：患者在面對生死攸關的醫療決策時，最終「希望由人類引導他們度過難關」。「引導」這個詞選得很好——醫療不只是診斷和治療，它還包含了情感支持、溝通、對患者價值觀的理解。這些東西，目前的 AI 完全做不到。

4. 「AI 依賴症」的隱憂

雪菲爾大學的 Wei Xing 助理教授在評論這項研究時，提出了一個讓人深思的觀點：部分結果顯示，醫生在 AI 給出建議後，可能不自覺地傾向於直接採納，而不是獨立思考。

「這種傾向可能隨著 AI 在臨床環境中常規化而變得更加嚴重，」Xing 說。他同時點出了研究中沒有回答的關鍵問題：AI 對哪些類型的患者診斷較差？它是否對老年患者或非英語使用者表現不佳？這些族群在 AI 訓練資料中往往被低估。

他的最終結論相當警醒：「這項研究並未證明 AI 已經安全到可以常規臨床使用，也不代表大眾應該直接使用免費的 AI 工具來取代醫療建議。」

三角照護模式：未來醫院的樣子

Rodman 博士在訪談中提出了一個相當務實的願景：未來的醫療模式不再是傳統的「醫生—患者」二元關係，而是「醫生、患者和 AI 系統」的三方協作——他稱之為 triadic care model。

在這個模型中，分工大概是這樣的：

AI 負責高速數據處理和模式識別，在海量資訊中快速篩選出最可能的診斷方向
醫生負責臨床綜合判斷和患者溝通，把 AI 的建議放在具體的個人情境中做取捨
患者擁有更多的資訊透明度和決策參與權——因為 AI 的分析可以讓醫療決策的邏輯變得更透明

這個願景很美好，但要實現它，還有幾個現實障礙需要克服。Edinburgh 大學醫學資訊學中心的 Ewen Harrison 教授評論說：「這些系統不再只是通過醫學考試或解決人工測試案例。它們開始看起來像是臨床醫生真正有用的第二意見工具——特別是在需要考慮更廣泛的診斷可能性、避免漏掉重要線索的時候。」

Harrison 口中的「廣泛的診斷可能性」和「避免漏掉重要線索」，正是台灣醫療體系可以從中借鏡的核心價值。

對台灣醫療體系的啟示

雖然這項研究來自美國的醫療環境，但對台灣的啟發非常直接。

台灣的健保體系以高效率聞名全球，但急診室人力不足、醫師過勞的問題長期存在。根據衛福部統計，台灣每年有超過 700 萬人次掛急診，而區域醫院和地區醫院的急診醫師往往需要同時處理大量病患。在這種環境下，如果 AI 能夠在分診階段協助醫生初步過濾病例、降低漏診率，對於緩解急診醫師的工作負荷將有顯著幫助。

特別是台灣許多地區醫院和基層診所，未必隨時有足夠的專科醫師駐診。一個經過臨床驗證的 AI 診斷輔助系統，可以成為偏鄉醫療的重要支援工具——當一位經驗不足的住院醫師在深夜面對複雜病例時，AI 可以即時提供第二意見。

當然，台灣要導入這類系統，還需要解決幾個實際問題：

法規層面： 衛福部食品藥物管理署對於 AI 醫療器材（SaMD）的審查標準是否已經跟上技術發展的速度？目前台灣核准的 AI 醫療器材以影像辨識為主（如肺結節偵測、眼底篩檢），對於這類「臨床推理型」AI 的審查框架還在建構中。

資料層面： 台灣的電子病歷互通雖然有進展，但各醫院的資料格式和標準仍然存在落差。AI 模型的訓練高度依賴大量、高品質、結構化的臨床資料，而台灣在這方面的基礎建設還有進步空間。

倫理與法律層面： AI 誤診時的責任歸屬如何釐清？在台灣的醫療糾紛訴訟文化中，這個問題只會更加敏感。

你現在該做與不該做的事

最後，我想給你兩個最實際的建議：

❌ 不要做的事：不要用 ChatGPT 來幫自己看病。

這項研究中的 AI 是在受控的臨床環境中、使用標準化的病歷格式進行測試。你隨手在 ChatGPT 或任何免費 AI 上打的幾句症狀描述，和哈佛研究中的嚴謹情境完全是兩回事。Wei Xing 博士的警告非常清楚：「大眾不應該將免費 AI 工具視為醫療建議的替代品。」

✅ 可以做的事：醫護人員應該開始熟悉 AI 工具了。

根據 AMA 的調查數據，AI 在醫療領域的採用正在加速。雖然 AI 不會取代醫生，但擅長使用 AI 的醫生，很可能會取代不擅長使用的醫生。這不是危言聳聽，而是過去每一次技術革命中反覆出現的規律——打字員沒有被電腦取代，但不學電腦的打字員被取代了。

對醫療領域的學習者和從業者來說，現在就是了解 AI 臨床應用的最佳時機。不需要成為 AI 專家，但至少要理解它的能力邊界——知道它在哪裡可靠、在哪裡需要警惕。這項研究提供了一個很好的切入點。

這不只是哈佛團隊發表的某一篇論文，而是整個醫療時代正在轉變的明確訊號。我們正在進入一個新的階段——AI 不再是實驗室裡的話題，而是可能在你下次走進急診室時，默默參與你診斷過程的那個「看不見的醫生」。至於這會讓醫療變得更好還是更複雜，現在回答還太早。但可以確定的是：那個只靠人類醫生判斷一切的時代，已經開始倒數了。