
史丹佛醫學院最新研究發現,人工智慧聊天機器人在複雜臨床管理與診斷上表現超越醫師。然而,也有研究指出,多款主流AI模型在回答日常健康問題時錯誤頻繁,甚至捏造引用來源,提醒民眾不應將AI視為最終醫療權威。
根據史丹佛醫學院最新研究指出,人工智慧(AI)大型語言模型在複雜的臨床管理問題上,展現出超越人類醫師的表現,尤其在「AI優先」的協作模式下,更能提升診斷決策的效率與準確性。然而,另一項針對主流聊天機器人的調查卻發現,這些通用型AI在回應一般健康問題時,常出現錯誤,甚至會捏造引用來源。
由史丹佛醫學院主導、並發表於《Nature Medicine》期刊的研究顯示,在處理複雜臨床管理問題時,單獨運作的聊天機器人,其表現優於僅使用網路搜尋及醫學參考資料的醫師。該研究讓46位醫師與一套聊天機器人系統協作,另有46位醫師僅依賴傳統資訊來源,共同處理5個去識別化的病患案例。研究結果顯示,單獨運作的AI得分高達87%,而僅使用傳統資源的醫師平均得分為75%。
進一步分析醫師與AI的協作模式,《Nature Digital Medicine》上的一項後續研究發現,若由AI先提供意見(AI-as-first-opinion),醫師的判斷得分可達85%;若AI作為第二意見(AI-as-second-opinion),醫師得分為82%。這項涵蓋254個案例的研究,最終顯示99%的參與醫師在試驗後,對使用AI協助複雜臨床推理抱持開放態度,較試驗前的91%有所提升。研究人員喬納森·H·陳(Jonathan H. Chen)博士表示,這項研究促使人們更批判性地思考人類與電腦各自擅長之處,並重新評估AI在哪些任務上能發揮最大效益。史丹佛醫學院醫學系學生Selin Everett則指出,研究旨在探索如何重新設計AI系統,以深化醫師與AI之間的協作,將AI從工具轉變為臨床隊友。
值得一提的是,史丹佛醫學院於2024年10月發表在《JAMA Network Open》的早期研究也曾指出,AI在診斷方面的準確性超越了人類醫師,即使醫師在診斷過程中能使用聊天機器人輔助。
然而,一份由MSN報導的最新研究則揭露了通用型AI在醫療諮詢上的侷限。該研究測試了GPT-4、Gemini、Grok、Meta AI、DeepSeek等五款主流AI系統,請它們各自回答50個涵蓋癌症、疫苗、營養等主題的醫學問題。兩位醫學專家評估後發現,約有20%的回覆「嚴重有問題」,50%「有問題」,30%「部分有問題」,只有極少數回答完全正確。在250個回答中,僅有兩個被完全接受,未發現任何錯誤。其中,Grok的回覆錯誤率最高達58%,其次是ChatGPT的52%和Meta AI的50%。研究也發現,即使是疫苗和癌症等資訊較為結構化的主題,仍有約四分之一的回答存在問題。當AI被要求提供科學文獻引用時,常見不完整、不正確,甚至捏造作者或參考文獻的情況。
專家解釋,這是因為大型語言模型是透過預測文本模式來生成內容,而非基於事實的理解與驗證,其訓練數據亦可能包含來自部落格和社群媒體等不可靠的來源。這類研究提醒,儘管AI在專業醫療場域潛力無窮,但民眾不應將通用型聊天機器人視為最終的醫療權威,所有透過AI獲得的健康資訊,仍需交由專業醫師或可靠來源進行驗證。
