AI醫療研究：聊天機器人診斷勝醫師，健康諮詢頻出錯

#人工智慧

#醫療AI

#聊天機器人

#臨床診斷

#史丹佛醫學院

Apr 27, 2026 3:36 PM Monday

商傳媒｜康語柔／綜合外電報導

摘要

史丹佛醫學院最新研究發現，人工智慧聊天機器人在複雜臨床管理與診斷上表現超越醫師。然而，也有研究指出，多款主流AI模型在回答日常健康問題時錯誤頻繁，甚至捏造引用來源，提醒民眾不應將AI視為最終醫療權威。

根據史丹佛醫學院最新研究指出，人工智慧（AI）大型語言模型在複雜的臨床管理問題上，展現出超越人類醫師的表現，尤其在「AI優先」的協作模式下，更能提升診斷決策的效率與準確性。然而，另一項針對主流聊天機器人的調查卻發現，這些通用型AI在回應一般健康問題時，常出現錯誤，甚至會捏造引用來源。

由史丹佛醫學院主導、並發表於《Nature Medicine》期刊的研究顯示，在處理複雜臨床管理問題時，單獨運作的聊天機器人，其表現優於僅使用網路搜尋及醫學參考資料的醫師。該研究讓46位醫師與一套聊天機器人系統協作，另有46位醫師僅依賴傳統資訊來源，共同處理5個去識別化的病患案例。研究結果顯示，單獨運作的AI得分高達87%，而僅使用傳統資源的醫師平均得分為75%。

進一步分析醫師與AI的協作模式，《Nature Digital Medicine》上的一項後續研究發現，若由AI先提供意見（AI-as-first-opinion），醫師的判斷得分可達85%；若AI作為第二意見（AI-as-second-opinion），醫師得分為82%。這項涵蓋254個案例的研究，最終顯示99%的參與醫師在試驗後，對使用AI協助複雜臨床推理抱持開放態度，較試驗前的91%有所提升。研究人員喬納森·H·陳（Jonathan H. Chen）博士表示，這項研究促使人們更批判性地思考人類與電腦各自擅長之處，並重新評估AI在哪些任務上能發揮最大效益。史丹佛醫學院醫學系學生Selin Everett則指出，研究旨在探索如何重新設計AI系統，以深化醫師與AI之間的協作，將AI從工具轉變為臨床隊友。

值得一提的是，史丹佛醫學院於2024年10月發表在《JAMA Network Open》的早期研究也曾指出，AI在診斷方面的準確性超越了人類醫師，即使醫師在診斷過程中能使用聊天機器人輔助。

然而，一份由MSN報導的最新研究則揭露了通用型AI在醫療諮詢上的侷限。該研究測試了GPT-4、Gemini、Grok、Meta AI、DeepSeek等五款主流AI系統，請它們各自回答50個涵蓋癌症、疫苗、營養等主題的醫學問題。兩位醫學專家評估後發現，約有20%的回覆「嚴重有問題」，50%「有問題」，30%「部分有問題」，只有極少數回答完全正確。在250個回答中，僅有兩個被完全接受，未發現任何錯誤。其中，Grok的回覆錯誤率最高達58%，其次是ChatGPT的52%和Meta AI的50%。研究也發現，即使是疫苗和癌症等資訊較為結構化的主題，仍有約四分之一的回答存在問題。當AI被要求提供科學文獻引用時，常見不完整、不正確，甚至捏造作者或參考文獻的情況。

專家解釋，這是因為大型語言模型是透過預測文本模式來生成內容，而非基於事實的理解與驗證，其訓練數據亦可能包含來自部落格和社群媒體等不可靠的來源。這類研究提醒，儘管AI在專業醫療場域潛力無窮，但民眾不應將通用型聊天機器人視為最終的醫療權威，所有透過AI獲得的健康資訊，仍需交由專業醫師或可靠來源進行驗證。

AI醫療研究：聊天機器人診斷勝醫師，健康諮詢頻出錯AI醫療研究：聊天機器人診斷勝醫師，健康諮詢頻出錯

AI醫療研究：聊天機器人診斷勝醫師，健康諮詢頻出錯