OpenAI o1 在急診室打敗醫生：一份哈佛研究的真實數據

病人因肺栓塞急診入院，呼吸越來越困難，血氧持續往下掉。值班醫師翻閱病歷後判斷抗凝血藥失效，準備調整治療方案。但 OpenAI 的 o1 模型掃過同一份病歷後，指出了一個醫師忽略的關鍵：病人的狼瘡病史才是肺部發炎的原因。AI 的判斷後來被證實是對的——抗凝血藥沒有問題，是狼瘡引起的心包膜炎。

這不是科幻影集的劇情，也不是 AI 公司誇大其詞的新聞稿。這份研究剛剛發表在頂尖學術期刊《Science》上，作者來自哈佛醫學院和 Beth Israel Deaconess 醫學中心。更直白地說：在真實的急診場景中，AI 的診斷準確率已經超過了人類醫生。

一場針對急診室的對決

「從喬治克隆尼在《急診室的春天》到 Noah Wyle 在《The Pitt》，急診醫生長久以來都是螢幕上的英雄。但該掛起白袍的時刻要來了嗎？」《衛報》在報導開頭這麼寫道。這份語氣挑釁的提問背後，是一組讓醫療界無法忽視的數字。

哈佛團隊的實驗設計很直接：76 名實際到波士頓醫院急診室報到的病人，他們的病歷同時交給 OpenAI o1 和兩名人類醫生。每個人看到的資料一模一樣——標準的電子病歷資料，包括生命徵象、基本人口學資訊、護理師寫的幾行主訴。沒有更多線索，沒有機會問診，就像一個強制限時的填空題。

結果：AI 正確診斷出 67% 的病例，人類醫生只有 50% 到 55%。這個 12 到 17 個百分點的差距在統計學上是顯著的。換句話說，在只有基本資料可用的情況下，人類醫生的正確率接近擲銅板，而 AI 已經遠高於這個水準。

更令人注意的是，當病歷資訊更完整時——包括更多檢驗數據和病史記錄——o1 的診斷準確率上升到 82%，面對的對手也升級為專家級醫生（準確率 70% 到 79%）。雖然這個差距未達到統計顯著，但至少證明 AI 不輸給人類專家。

這也不只是「認病名」的比賽。研究還測試了治療計劃能力。46 名醫生和 AI 各自針對五個臨床病例制定治療方案——從抗生素療程規劃到安寧照護決策。結果更懸殊：AI 的計劃品質得分是 89%，而使用傳統資源（如搜尋引擎）的人類醫生只有 34%。這 55 個百分點的差距，讓在場的研究人員都感到驚訝。

獨立專家將這些結果形容為 AI 臨床推理能力「真正的進步」（a genuine step forward）。研究作者群在論文中寫道，大型語言模型（LLM）「已經超越了大多數臨床推理的基準測試」。

那個讓 AI 勝出的案例

研究中最戲劇性的一個案例，是文章開頭提到的那位肺栓塞患者。

病人來到急診時已經有明顯的呼吸困難和胸痛，影像檢查證實肺部有血栓。隨著症狀惡化，人類醫生們自然懷疑抗凝血治療失敗——這是常規思路中最合理的推測。但 o1 在閱讀病歷時注意到一個被忽略的細節：這個病人有系統性紅斑狼瘡（SLE）病史。

狼瘡是一種自體免疫疾病，會引起全身多處的慢性發炎，其中一個常見的併發症就是心包膜炎——心臟外層的發炎。這種發炎的症狀和肺栓塞惡化非常相似，但治療方向完全不同。抗凝血藥對心包膜炎無效，真正需要的是抗發炎藥物和免疫調節劑。

AI 判斷是正確的。這個案例完美展示了 AI 在臨床推理中的核心優勢：它不會遺漏病歷中的任何一行資訊，也不會因為「多數情況是這樣」的捷徑思維而忽略少數可能性。人類醫生一天的門診量超過 50 人是常態，在這樣的資訊負載下，漏掉一個幾年前的病史記錄是完全可以理解的——但對病人來說，這個遺漏的代價可能非常慘重。

醫生不是被取代，而是需要夥伴

「我不認為這代表 AI 會取代醫生。」哈佛醫學院的共同作者 Arjun Manrai 在受訪時說，「但我認為我們正在見證一項真正深刻的技術變革，這將重塑醫學。」

Beth Israel Deaconess 醫學中心的醫生、也是共同作者 Adam Rodman 更直接地把這稱為「幾十年來最具影響力的技術之一」。他預測未來十年將會出現一種新的「三方照護模式」——醫生、病人和人工智慧系統共同合作。

這個觀點的關鍵在於：AI 不是來搶工作的，它是來補盲點的。AI 的診斷能力來自於對大量文字資料的統計模式識別，它沒有疲勞問題、沒有認知偏誤、不會因為值班第 12 個小時而忽略一段重要的病史。但它的能力建立在純文字資料上——它看不到病人的痛苦程度、臉色蒼白、呼吸急促這些視覺線索，聽不到家屬語氣中的緊張，也無法在病人握住他的手時傳遞那種「我們會處理好」的安心感。這意味著 AI 目前的角色更像是「基於病歷的第二意見顧問」，而不是站上第一線的醫生。

AI 的盲點：當它出錯時誰負責？

愛丁堡大學醫學資訊學聯合主任 Ewen Harrison 教授指出，這項研究的重要意義在於「這些系統不再只是通過醫學考試或解決人造的測試案例。它們開始看起來像是對臨床醫生有用的第二意見工具，特別是在需要考慮更廣泛診斷範圍、避免遺漏重要線索的時候。」

但雪菲爾大學的 Wei Xing 博士提出了一個更值得警惕的觀察：研究中有些結果顯示，醫生可能不自覺地傾向於同意 AI 的答案，而不是獨立思考。他稱這種現象為「自動化偏誤」（automation bias）——當一個權威系統給出了建議，人類傾向於不加批判地接受。隨著 AI 在臨床場景中越來越普及，這種傾向可能會變得更加明顯。

他還指出一個重要的資訊缺口：這項研究沒有揭露 AI 對哪些病人群體的診斷效果較差。它對年長者的診斷準確度如何？對非英語母語者的表現會不會下滑？這些問題直接關係到醫療公平性，但目前都沒有答案。

「這項研究並沒有證明 AI 對常規臨床使用是安全的，也沒有證明大眾應該轉向免費的 AI 工具作為醫療建議的替代品。」Xing 說得直接。

這個提醒非常現實。如果一個 AI 系統在訓練資料中主要使用了美國白人的醫療數據，那麼它對亞洲族群的診斷準確率可能明顯較低。這對台灣的醫療 AI 發展者來說，是一個需要提前做好準備的問題。

醫生已經在用，但責任框架還沒跟上

儘管有這些疑慮，實際數據顯示醫生們已經開始擁抱這項技術——比多數人想像的還快。

根據美國醫學會（AMA）上個月發布的調查，近五分之一的美國醫生已經在臨床診斷中使用 AI。英國皇家內科醫學會的調查則顯示，16% 的英國醫生每天使用 AI，另有 15% 每週使用——其中「臨床決策輔助」是最常見的用途。

但英國醫生最大的擔憂集中在兩個問題：AI 出錯時的責任歸屬和醫療過失風險。這個擔憂不是沒有道理的——數十億資金正在湧入 AI 醫療新創公司，但責任框架卻還沒有跟上。Rodman 醫生也坦承：「目前不存在正式的問責框架。」

他強調，病人最終「希望有人類來引導他們度過生死攸關的決定，引導他們面對困難的治療選擇。」換句話說，即使 AI 的數據分析能力再強，在關乎生命的場景中，病人依然渴望一張人類的臉來告訴他們「我們正在處理」。

這對台灣醫療體系意味著什麼

這份研究雖然來自美國波士頓，但對台灣的醫療體系有幾個值得關注的啟示。

台灣的全民健保體系產出了全球最豐富的電子醫療紀錄資料庫之一。健保資料庫超過 20 年的累積資料、標準化的申報格式、以及完整的就醫記錄鏈——這些條件讓台灣比其他多數國家更適合發展 AI 臨床輔助系統。台灣的醫療資訊化程度在全球名列前茅，這不是自誇，是事實。

更具體地說，台灣每年有超過 700 萬人次的急診就醫記錄、三千萬以上的門診記錄——每一筆都包含結構化的主訴、診斷碼、檢驗數據和用藥記錄。相較於美國各家醫院各自為政的病歷系統，台灣的健保資料庫擁有極高的資料一致性。對於訓練 AI 模型來說，這是黃金等級的訓練素材。

事實上，台灣的醫院已經在嘗試。台大醫院、北榮、長庚等醫學中心都有 AI 輔助診斷的實作專案，包括偵測肺結節的 AI 影像判讀、急診敗血症預警系統、心電圖 AI 分析等。但這些專案多數集中在影像醫學領域——這確實是 AI 最擅長的戰場之一。像哈佛這份研究那樣測試「純文字病歷推理」的嘗試還相對少見。

哈佛研究的數據提供了一個重要的參考基準：當 AI 只靠文字資料進行診斷時，它的表現已經超越人類醫生。這意味著台灣健保資料庫中那些結構化的文字病歷——急診檢傷紀錄、門診病歷、出院摘要——都可能成為 AI 訓練的寶藏。如果能建立一個符合法規的、去識別化的中文醫療 LLM 訓練資料集，台灣有機會在 AI 醫療領域取得先機。

當然，挑戰也不小。法規面，衛福部的醫材管理規範對於 AI 醫療軟體的分類與審查仍在演進階段，目前僅有少數 AI 輔助診斷軟體取得正式許可，且多集中在影像判讀領域。像哈佛研究中這類「純文字推理」的 AI 系統要歸類為第幾等級醫材、需要哪些臨床驗證，都還沒有明確指引。

實務面，醫療院所面臨的系統整合挑戰也很具體：如何讓 AI 建議無縫嵌入現有的醫療資訊系統而不增加醫護人員的額外負擔？如果 AI 每份病歷都要產生一個診斷建議，而醫生需要多花 30 秒來閱讀和評估這個建議，那麼每天看 50 個病人的醫生就要多花 25 分鐘——如果一個 AI 系統增加而不是減少醫護人員的工作量，它在臨床推廣上註定會失敗。

醫療人員的數位素養訓練也是一道坎。AMA 的調查顯示，即使是已經在使用 AI 的醫生中，也有超過半數對 AI 的決策邏輯缺乏足夠理解。這不是指責醫生——AI 模型的「黑箱」特性本來就讓它的決策過程難以解釋，這是整個領域都在面對的根本難題。

而最棘手的責任歸屬問題——如果醫生參考了 AI 建議後做出錯誤判斷，責任在醫生還是 AI 提供者——在現行台灣法律架構下沒有明確答案。美國已經有律師事務所專門成立 AI 醫療責任部門，而台灣在這方面的法律討論才剛起步。

不是選擇題，而是合作題

回過頭來看哈佛這份研究，最有價值的部分其實不是那些競爭力十足的數字，而是它推動的對話方向。研究團隊沒有說 AI 應該取代醫生，他們說的是「重塑醫學」。這是一個更複雜、也更值得追問的問題。

在一個病人因為肺栓塞惡化而被送進急診室的夜晚，人類醫生的判斷力是有極限的——疲勞、認知偏誤、資訊過載都會影響診斷品質。AI 的優勢在於它不會累，不會在值班第 12 個小時時忽略狼瘡病史和肺部發炎之間的關聯。但人類的優勢也同樣明確：AI 可以指出「這個病人有心包膜炎的可能性」，但它無法握住病人的手說「我們會處理好」。

這就是 Rodman 所說的「三方照護模式」的起點：AI 負責處理資料、篩選可能性、提示潛在的診斷盲點；人類醫生負責整合這些資訊、與病人溝通、最終做出臨床決策。電腦做它擅長的，人做人擅長的。

對台灣來說，真正的機遇或許不在於「我們的 AI 比別人強」，而在於「我們的醫療體系比別人更有條件把 AI 用好」。完整的資料、優秀的工程人才、成熟的醫療資訊基礎建設——這些條件同時具備的國家並不多。如果能把這些優勢整合在一起，台灣有機會成為 AI 醫療應用的先行者，而不只是技術的跟隨者。

這不只是某項技術的進步，而是整個醫療體系在轉變的信號。我們正在進入一個新的階段——AI 不再是「未來可能有用」的工具，而是「現在已經跑贏人類」的存在。至於該怎麼接住它，全世界都還在摸索。

參考資料： Harvard study published in Science (2026), reported by The Guardian on April 30, 2026. Additional data from American Medical Association physician sentiment survey and Royal College of Physicians UK survey.