病人因肺栓塞急診入院,呼吸越來越困難,血氧持續往下掉。值班醫師翻閱病歷後判斷抗凝血藥失效,準備調整治療方案。但 OpenAI 的 o1 模型掃過同一份病歷後,指出了一個醫師忽略的關鍵:病人的狼瘡病史才是肺部發炎的原因。AI 的判斷後來被證實是對的——抗凝血藥沒有問題,是狼瘡引起的心包膜炎。

這不是科幻影集的劇情,也不是 AI 公司誇大其詞的新聞稿。這份研究剛剛發表在頂尖學術期刊《Science》上,作者來自哈佛醫學院和 Beth Israel Deaconess 醫學中心。更直白地說:在真實的急診場景中,AI 的診斷準確率已經超過了人類醫生。

一場針對急診室的對決

「從喬治克隆尼在《急診室的春天》到 Noah Wyle 在《The Pitt》,急診醫生長久以來都是螢幕上的英雄。但該掛起白袍的時刻要來了嗎?」《衛報》在報導開頭這麼寫道。這份語氣挑釁的提問背後,是一組讓醫療界無法忽視的數字。

哈佛團隊的實驗設計很直接:76 名實際到波士頓醫院急診室報到的病人,他們的病歷同時交給 OpenAI o1 和兩名人類醫生。每個人看到的資料一模一樣——標準的電子病歷資料,包括生命徵象、基本人口學資訊、護理師寫的幾行主訴。沒有更多線索,沒有機會問診,就像一個強制限時的填空題。

結果:AI 正確診斷出 67% 的病例,人類醫生只有 50% 到 55%。這個 12 到 17 個百分點的差距在統計學上是顯著的。換句話說,在只有基本資料可用的情況下,人類醫生的正確率接近擲銅板,而 AI 已經遠高於這個水準。

更令人注意的是,當病歷資訊更完整時——包括更多檢驗數據和病史記錄——o1 的診斷準確率上升到 82%,面對的對手也升級為專家級醫生(準確率 70% 到 79%)。雖然這個差距未達到統計顯著,但至少證明 AI 不輸給人類專家。

這也不只是「認病名」的比賽。研究還測試了治療計劃能力。46 名醫生和 AI 各自針對五個臨床病例制定治療方案——從抗生素療程規劃到安寧照護決策。結果更懸殊:AI 的計劃品質得分是 89%,而使用傳統資源(如搜尋引擎)的人類醫生只有 34%。這 55 個百分點的差距,讓在場的研究人員都感到驚訝。

獨立專家將這些結果形容為 AI 臨床推理能力「真正的進步」(a genuine step forward)。研究作者群在論文中寫道,大型語言模型(LLM)「已經超越了大多數臨床推理的基準測試」。

那個讓 AI 勝出的案例

研究中最戲劇性的一個案例,是文章開頭提到的那位肺栓塞患者。

病人來到急診時已經有明顯的呼吸困難和胸痛,影像檢查證實肺部有血栓。隨著症狀惡化,人類醫生們自然懷疑抗凝血治療失敗——這是常規思路中最合理的推測。但 o1 在閱讀病歷時注意到一個被忽略的細節:這個病人有系統性紅斑狼瘡(SLE)病史。

狼瘡是一種自體免疫疾病,會引起全身多處的慢性發炎,其中一個常見的併發症就是心包膜炎——心臟外層的發炎。這種發炎的症狀和肺栓塞惡化非常相似,但治療方向完全不同。抗凝血藥對心包膜炎無效,真正需要的是抗發炎藥物和免疫調節劑。

AI 判斷是正確的。這個案例完美展示了 AI 在臨床推理中的核心優勢:它不會遺漏病歷中的任何一行資訊,也不會因為「多數情況是這樣」的捷徑思維而忽略少數可能性。人類醫生一天的門診量超過 50 人是常態,在這樣的資訊負載下,漏掉一個幾年前的病史記錄是完全可以理解的——但對病人來說,這個遺漏的代價可能非常慘重。

醫生不是被取代,而是需要夥伴

「我不認為這代表 AI 會取代醫生。」哈佛醫學院的共同作者 Arjun Manrai 在受訪時說,「但我認為我們正在見證一項真正深刻的技術變革,這將重塑醫學。」

Beth Israel Deaconess 醫學中心的醫生、也是共同作者 Adam Rodman 更直接地把這稱為「幾十年來最具影響力的技術之一」。他預測未來十年將會出現一種新的「三方照護模式」——醫生、病人和人工智慧系統共同合作。

這個觀點的關鍵在於:AI 不是來搶工作的,它是來補盲點的。AI 的診斷能力來自於對大量文字資料的統計模式識別,它沒有疲勞問題、沒有認知偏誤、不會因為值班第 12 個小時而忽略一段重要的病史。但它的能力建立在純文字資料上——它看不到病人的痛苦程度、臉色蒼白、呼吸急促這些視覺線索,聽不到家屬語氣中的緊張,也無法在病人握住他的手時傳遞那種「我們會處理好」的安心感。這意味著 AI 目前的角色更像是「基於病歷的第二意見顧問」,而不是站上第一線的醫生。

AI 的盲點:當它出錯時誰負責?

愛丁堡大學醫學資訊學聯合主任 Ewen Harrison 教授指出,這項研究的重要意義在於「這些系統不再只是通過醫學考試或解決人造的測試案例。它們開始看起來像是對臨床醫生有用的第二意見工具,特別是在需要考慮更廣泛診斷範圍、避免遺漏重要線索的時候。」

但雪菲爾大學的 Wei Xing 博士提出了一個更值得警惕的觀察:研究中有些結果顯示,醫生可能不自覺地傾向於同意 AI 的答案,而不是獨立思考。他稱這種現象為「自動化偏誤」(automation bias)——當一個權威系統給出了建議,人類傾向於不加批判地接受。隨著 AI 在臨床場景中越來越普及,這種傾向可能會變得更加明顯。

他還指出一個重要的資訊缺口:這項研究沒有揭露 AI 對哪些病人群體的診斷效果較差。它對年長者的診斷準確度如何?對非英語母語者的表現會不會下滑?這些問題直接關係到醫療公平性,但目前都沒有答案。

「這項研究並沒有證明 AI 對常規臨床使用是安全的,也沒有證明大眾應該轉向免費的 AI 工具作為醫療建議的替代品。」Xing 說得直接。

這個提醒非常現實。如果一個 AI 系統在訓練資料中主要使用了美國白人的醫療數據,那麼它對亞洲族群的診斷準確率可能明顯較低。這對台灣的醫療 AI 發展者來說,是一個需要提前做好準備的問題。

醫生已經在用,但責任框架還沒跟上

儘管有這些疑慮,實際數據顯示醫生們已經開始擁抱這項技術——比多數人想像的還快。

根據美國醫學會(AMA)上個月發布的調查,近五分之一的美國醫生已經在臨床診斷中使用 AI。英國皇家內科醫學會的調查則顯示,16% 的英國醫生每天使用 AI,另有 15% 每週使用——其中「臨床決策輔助」是最常見的用途。

但英國醫生最大的擔憂集中在兩個問題:AI 出錯時的責任歸屬和醫療過失風險。這個擔憂不是沒有道理的——數十億資金正在湧入 AI 醫療新創公司,但責任框架卻還沒有跟上。Rodman 醫生也坦承:「目前不存在正式的問責框架。」

他強調,病人最終「希望有人類來引導他們度過生死攸關的決定,引導他們面對困難的治療選擇。」換句話說,即使 AI 的數據分析能力再強,在關乎生命的場景中,病人依然渴望一張人類的臉來告訴他們「我們正在處理」。

這對台灣醫療體系意味著什麼

這份研究雖然來自美國波士頓,但對台灣的醫療體系有幾個值得關注的啟示。

台灣的全民健保體系產出了全球最豐富的電子醫療紀錄資料庫之一。健保資料庫超過 20 年的累積資料、標準化的申報格式、以及完整的就醫記錄鏈——這些條件讓台灣比其他多數國家更適合發展 AI 臨床輔助系統。台灣的醫療資訊化程度在全球名列前茅,這不是自誇,是事實。

更具體地說,台灣每年有超過 700 萬人次的急診就醫記錄、三千萬以上的門診記錄——每一筆都包含結構化的主訴、診斷碼、檢驗數據和用藥記錄。相較於美國各家醫院各自為政的病歷系統,台灣的健保資料庫擁有極高的資料一致性。對於訓練 AI 模型來說,這是黃金等級的訓練素材。

事實上,台灣的醫院已經在嘗試。台大醫院、北榮、長庚等醫學中心都有 AI 輔助診斷的實作專案,包括偵測肺結節的 AI 影像判讀、急診敗血症預警系統、心電圖 AI 分析等。但這些專案多數集中在影像醫學領域——這確實是 AI 最擅長的戰場之一。像哈佛這份研究那樣測試「純文字病歷推理」的嘗試還相對少見。

哈佛研究的數據提供了一個重要的參考基準:當 AI 只靠文字資料進行診斷時,它的表現已經超越人類醫生。這意味著台灣健保資料庫中那些結構化的文字病歷——急診檢傷紀錄、門診病歷、出院摘要——都可能成為 AI 訓練的寶藏。如果能建立一個符合法規的、去識別化的中文醫療 LLM 訓練資料集,台灣有機會在 AI 醫療領域取得先機。

當然,挑戰也不小。法規面,衛福部的醫材管理規範對於 AI 醫療軟體的分類與審查仍在演進階段,目前僅有少數 AI 輔助診斷軟體取得正式許可,且多集中在影像判讀領域。像哈佛研究中這類「純文字推理」的 AI 系統要歸類為第幾等級醫材、需要哪些臨床驗證,都還沒有明確指引。

實務面,醫療院所面臨的系統整合挑戰也很具體:如何讓 AI 建議無縫嵌入現有的醫療資訊系統而不增加醫護人員的額外負擔?如果 AI 每份病歷都要產生一個診斷建議,而醫生需要多花 30 秒來閱讀和評估這個建議,那麼每天看 50 個病人的醫生就要多花 25 分鐘——如果一個 AI 系統增加而不是減少醫護人員的工作量,它在臨床推廣上註定會失敗。

醫療人員的數位素養訓練也是一道坎。AMA 的調查顯示,即使是已經在使用 AI 的醫生中,也有超過半數對 AI 的決策邏輯缺乏足夠理解。這不是指責醫生——AI 模型的「黑箱」特性本來就讓它的決策過程難以解釋,這是整個領域都在面對的根本難題。

而最棘手的責任歸屬問題——如果醫生參考了 AI 建議後做出錯誤判斷,責任在醫生還是 AI 提供者——在現行台灣法律架構下沒有明確答案。美國已經有律師事務所專門成立 AI 醫療責任部門,而台灣在這方面的法律討論才剛起步。

不是選擇題,而是合作題

回過頭來看哈佛這份研究,最有價值的部分其實不是那些競爭力十足的數字,而是它推動的對話方向。研究團隊沒有說 AI 應該取代醫生,他們說的是「重塑醫學」。這是一個更複雜、也更值得追問的問題。

在一個病人因為肺栓塞惡化而被送進急診室的夜晚,人類醫生的判斷力是有極限的——疲勞、認知偏誤、資訊過載都會影響診斷品質。AI 的優勢在於它不會累,不會在值班第 12 個小時時忽略狼瘡病史和肺部發炎之間的關聯。但人類的優勢也同樣明確:AI 可以指出「這個病人有心包膜炎的可能性」,但它無法握住病人的手說「我們會處理好」。

這就是 Rodman 所說的「三方照護模式」的起點:AI 負責處理資料、篩選可能性、提示潛在的診斷盲點;人類醫生負責整合這些資訊、與病人溝通、最終做出臨床決策。電腦做它擅長的,人做人擅長的。

對台灣來說,真正的機遇或許不在於「我們的 AI 比別人強」,而在於「我們的醫療體系比別人更有條件把 AI 用好」。完整的資料、優秀的工程人才、成熟的醫療資訊基礎建設——這些條件同時具備的國家並不多。如果能把這些優勢整合在一起,台灣有機會成為 AI 醫療應用的先行者,而不只是技術的跟隨者。

這不只是某項技術的進步,而是整個醫療體系在轉變的信號。我們正在進入一個新的階段——AI 不再是「未來可能有用」的工具,而是「現在已經跑贏人類」的存在。至於該怎麼接住它,全世界都還在摸索。

參考資料: Harvard study published in Science (2026), reported by The Guardian on April 30, 2026. Additional data from American Medical Association physician sentiment survey and Royal College of Physicians UK survey.