來源: The Guardian(2026/4/30)— Harvard Study,Science 期刊

如果你某天因為胸痛衝進急診室,給你做出初步診斷的,可能不再是一位穿著白袍的醫生,而是一個你看不見的 AI 模型。

這不是科幻情節。哈佛醫學院的研究團隊在頂級學術期刊《Science》上發表了一項大規模臨床研究,結果讓整個醫學界為之側目:OpenAI 的 o1 推理模型在急診分診診斷中的準確率達到 67%,而人類醫生僅有 50% 到 55%。在急診室那種分秒必爭、資訊極度有限的壓力環境下,AI 的判斷比真人醫生高出超過十個百分點。

研究共同作者、哈佛醫學院的 Arjun Manrai 博士在高達 600 多則 HN 討論中被反覆引用的那句話,值得一字不漏地讀一遍:「我認為我們的發現並不代表 AI 會取代醫生。但它確實意味著,我們正在見證一項真正深刻的技術變革,它將重塑醫學。」


這場實驗的設計:為什麼它比其他 AI 醫療研究更有說服力?

過去幾年,AI 醫療的研究很多,但大多數測試的是 AI 在標準化考試或模擬病例中的表現——那種環境和真實臨床情境差距很大。哈佛這次的設計很特別,它有幾個值得注意的特色:

真實患者,真實病歷

研究團隊隨機選取了 76 位實際到波士頓某醫院急診室就診的患者,然後將每位患者的標準電子病歷——包含生命徵象數據、基本人口統計資訊,以及護理師寫的幾句話描述患者為何來就診——同時交給 OpenAI 的 o1 和兩位人類醫生。

這裡的關鍵在於:給 AI 看的資料和給人類醫生看的完全一模一樣。不多,也不少。沒有患者的表情、沒有他們的痛苦程度、沒有醫師親自問診的直覺反饋。就是急診醫生在分診時手邊那幾行文字資料。

結果:AI 在資訊最少時表現最好

AI 在 67% 的案例中給出了精確或非常接近的診斷,而人類醫生只有 50% 到 55%。這個差距在統計學上被研究者標記為「顯著」。

更有趣的是,當患者資訊更完整時(包含更多檢驗報告和病史細節),AI 的診斷準確率進一步上升到 82%,而經驗豐富的人類專科醫生則在 70% 到 79% 之間。雖然後者的差距在統計學上不顯著,但一個模式已經很清楚:AI 在需要快速決策且資訊極少的「分診情境」中,相對人類的優勢最大。

研究者對此的解釋非常合理:人類醫生在資訊不足的情況下,容易受到經驗捷徑(heuristics)和認知偏誤的影響——比如最常見的「錨定效應」,當醫生看到一個明顯的症狀時,會不自覺地把後續判斷都錨定在這個方向上。AI 沒有這種問題。


不只是診斷:治療計畫的表現更驚人

研究還進行了第二階段的測試,規模更大。他們讓 AI 和 46 位醫生分別審視五個複雜的臨床案例,要求他們給出長期的治療計畫——從抗生素療程、慢性病管理到臨終照護規劃。

結果差距更懸殊了:

AI 的治療計畫評分:89%
人類醫生使用傳統資源(如搜尋引擎和教科書)的評分:34%

這是一個將近三倍的差距。當然,這裡的設計對人類醫生有些不利——在現實中,醫生會和同事討論、會翻閱病例文獻、會運用多年累積的經驗做出綜合判斷。但即使考慮到這些因素,AI 在結構化臨床推理上的優勢仍然非常明顯。

一個令人印象深刻的真實案例

研究中有一個案例特別值得講。一位患者因為肺栓塞(血塊阻塞肺部血管)被送入急診室,症狀持續惡化。人類醫生判斷是抗凝血藥物失效,打算更換用藥方案。

但 AI 注意到了一個被所有人都忽略的細節:該患者有全身性紅斑性狼瘡(SLE)病史。AI 推斷肺部的發炎可能是狼瘡引起的,而不是抗凝血藥物失效——兩者的治療方向完全不同。後續檢查證實 AI 是對的。

這個案例之所以重要,在於它展示了 AI 在跨領域資訊整合上的獨特能力。人類醫生在時間壓力和資訊有限的雙重夾擊下,很容易陷入「最常見的解釋」思維模式(心理學上稱為「確認偏誤」)。而 AI 不會因為「最常見」就偏好某個診斷——它只是冷靜地計算每一種可能性。


醫療現場的真實採用情況

你可能會想:這些數據很漂亮,但現實中有醫生真的在用嗎?

答案是肯定的,而且比例遠比你想像的高。

根據美國醫學會(AMA)今年四月剛出爐的調查報告,近五分之一(接近 20%)的美國醫生已經在日常臨床診斷中使用 AI 工具。英國皇家內科醫師學會(Royal College of Physicians)的統計則顯示,英國有 16% 的醫生每天使用 AI 技術,另外 15% 每週至少用一次。最常見的應用場景就是「臨床決策支援」——也就是說,醫生在做診斷或決定治療方案前,先問 AI 的意見。

換句話說,在你下次走進診間時,幫你看病的醫生可能已經在你看不到的地方,默默地用 AI 當作自己的第二意見來源了。這不是未來,而是現在。


但醫生不會被取代——為什麼?

看到這裡,你可能覺得這是在鋪陳「醫生準備失業」的結論。但研究團隊本身反而極力避免這種論述。

Manrai 博士的原話非常明確:「我不認為我們的發現意味著 AI 會取代醫生。」

他有幾個關鍵論據:

1. AI 沒有眼睛,也沒有耳朵

這次測試中,AI 只看文字資料。它沒有看到患者走進急診室時痛苦的表情、沒有聽到他們呼吸的聲音、沒有觀察到他們步伐不穩的樣子。這些非語言訊息在臨床判斷中佔據了極其重要的位置。

共同作者 Adam Rodman 博士——同時也是 Beth Israel Deaconess 醫療中心的臨床醫生——形容得很傳神:在這次測試中,AI 更像是一位「基於病歷資料給出第二意見的顧問」,而不是那位站在病床邊、看著你眼睛說話的醫生。

2. AI 出錯時,誰負責?

這是英國醫生對 AI 應用的最大擔憂,也是所有國家的醫療監管機構目前最頭痛的問題。

Rodman 博士坦言:「目前完全沒有一套正式的問責框架。」如果 AI 給出了錯誤的診斷建議,醫生照做了,結果造成醫療傷害——責任是醫生的、醫院的、還是 AI 公司的?這個問題在法律上幾乎是真空狀態。

3. 患者需要的是人,不是機器

Rodman 進一步指出一個非常根本的事實:患者在面對生死攸關的醫療決策時,最終「希望由人類引導他們度過難關」。「引導」這個詞選得很好——醫療不只是診斷和治療,它還包含了情感支持、溝通、對患者價值觀的理解。這些東西,目前的 AI 完全做不到。

4. 「AI 依賴症」的隱憂

雪菲爾大學的 Wei Xing 助理教授在評論這項研究時,提出了一個讓人深思的觀點:部分結果顯示,醫生在 AI 給出建議後,可能不自覺地傾向於直接採納,而不是獨立思考。

「這種傾向可能隨著 AI 在臨床環境中常規化而變得更加嚴重,」Xing 說。他同時點出了研究中沒有回答的關鍵問題:AI 對哪些類型的患者診斷較差?它是否對老年患者或非英語使用者表現不佳?這些族群在 AI 訓練資料中往往被低估。

他的最終結論相當警醒:「這項研究並未證明 AI 已經安全到可以常規臨床使用,也不代表大眾應該直接使用免費的 AI 工具來取代醫療建議。」


三角照護模式:未來醫院的樣子

Rodman 博士在訪談中提出了一個相當務實的願景:未來的醫療模式不再是傳統的「醫生—患者」二元關係,而是「醫生、患者和 AI 系統」的三方協作——他稱之為 triadic care model

在這個模型中,分工大概是這樣的:

這個願景很美好,但要實現它,還有幾個現實障礙需要克服。Edinburgh 大學醫學資訊學中心的 Ewen Harrison 教授評論說:「這些系統不再只是通過醫學考試或解決人工測試案例。它們開始看起來像是臨床醫生真正有用的第二意見工具——特別是在需要考慮更廣泛的診斷可能性、避免漏掉重要線索的時候。」

Harrison 口中的「廣泛的診斷可能性」和「避免漏掉重要線索」,正是台灣醫療體系可以從中借鏡的核心價值。


對台灣醫療體系的啟示

雖然這項研究來自美國的醫療環境,但對台灣的啟發非常直接。

台灣的健保體系以高效率聞名全球,但急診室人力不足、醫師過勞的問題長期存在。根據衛福部統計,台灣每年有超過 700 萬人次掛急診,而區域醫院和地區醫院的急診醫師往往需要同時處理大量病患。在這種環境下,如果 AI 能夠在分診階段協助醫生初步過濾病例、降低漏診率,對於緩解急診醫師的工作負荷將有顯著幫助。

特別是台灣許多地區醫院和基層診所,未必隨時有足夠的專科醫師駐診。一個經過臨床驗證的 AI 診斷輔助系統,可以成為偏鄉醫療的重要支援工具——當一位經驗不足的住院醫師在深夜面對複雜病例時,AI 可以即時提供第二意見。

當然,台灣要導入這類系統,還需要解決幾個實際問題:

法規層面: 衛福部食品藥物管理署對於 AI 醫療器材(SaMD)的審查標準是否已經跟上技術發展的速度?目前台灣核准的 AI 醫療器材以影像辨識為主(如肺結節偵測、眼底篩檢),對於這類「臨床推理型」AI 的審查框架還在建構中。

資料層面: 台灣的電子病歷互通雖然有進展,但各醫院的資料格式和標準仍然存在落差。AI 模型的訓練高度依賴大量、高品質、結構化的臨床資料,而台灣在這方面的基礎建設還有進步空間。

倫理與法律層面: AI 誤診時的責任歸屬如何釐清?在台灣的醫療糾紛訴訟文化中,這個問題只會更加敏感。


你現在該做與不該做的事

最後,我想給你兩個最實際的建議:

❌ 不要做的事:不要用 ChatGPT 來幫自己看病。

這項研究中的 AI 是在受控的臨床環境中、使用標準化的病歷格式進行測試。你隨手在 ChatGPT 或任何免費 AI 上打的幾句症狀描述,和哈佛研究中的嚴謹情境完全是兩回事。Wei Xing 博士的警告非常清楚:「大眾不應該將免費 AI 工具視為醫療建議的替代品。」

✅ 可以做的事:醫護人員應該開始熟悉 AI 工具了。

根據 AMA 的調查數據,AI 在醫療領域的採用正在加速。雖然 AI 不會取代醫生,但擅長使用 AI 的醫生,很可能會取代不擅長使用的醫生。這不是危言聳聽,而是過去每一次技術革命中反覆出現的規律——打字員沒有被電腦取代,但不學電腦的打字員被取代了。

對醫療領域的學習者和從業者來說,現在就是了解 AI 臨床應用的最佳時機。不需要成為 AI 專家,但至少要理解它的能力邊界——知道它在哪裡可靠、在哪裡需要警惕。這項研究提供了一個很好的切入點。


這不只是哈佛團隊發表的某一篇論文,而是整個醫療時代正在轉變的明確訊號。我們正在進入一個新的階段——AI 不再是實驗室裡的話題,而是可能在你下次走進急診室時,默默參與你診斷過程的那個「看不見的醫生」。至於這會讓醫療變得更好還是更複雜,現在回答還太早。但可以確定的是:那個只靠人類醫生判斷一切的時代,已經開始倒數了。