對21種大語言模型研究表明:AI尚不具備獨立臨牀診療的能力

科技日報北京4月13日電 (記者張佳欣)儘管人工智能(AI)在醫療領域的應用日益增多,但其“像醫生一樣思考”的能力仍存在明顯短板。由美國麻省總醫院MESH孵化器團隊開展的一項最新研究發現,生成式AI在臨牀推理關鍵環節仍顯不足,尚不具備獨立承擔臨牀診療任務的能力。相關成果發表在最新一期《JAMA Network Open》上。

團隊選取包括ChatGPT、DeepSeek、Claude、Gemini和Grok在內的21種大語言模型,在29個已發表的臨牀病例中進行測試,並通過逐步提供患者信息(從基本症狀到實驗室和影像結果)來模擬真實診療過程。結果顯示,當獲得完整信息時,所有模型在超過90%的案例中能給出正確的最終診斷。

然而,在關鍵的早期診斷階段,這些模型普遍表現欠佳。研究發現,超過80%的情況下,模型未能提出合理的“鑑別診斷”,即對多種可能疾病進行系統性分析與篩選。這一能力被認爲是臨牀推理的核心,也是醫生決策的重要基礎。

爲更全面評估模型能力,團隊提出了一種名爲PrIME-LLM的新指標,從提出潛在診斷、選擇檢查手段、給出最終診斷到制定治療方案等多個環節對模型進行綜合評價。結果顯示,各模型整體評分在64%至78%之間,表現存在明顯差異。

團隊指出,大語言模型更擅長在信息完備的情況下“給出答案”,但在信息不充分、需要開放性推理的情境中表現較弱。隨着實驗室數據和影像資料的加入,模型表現有所提升,且新一代模型整體優於舊版本,表明相關技術正在持續改進。

團隊表示,當前大語言模型尚不適合在缺乏監督的情況下直接用於臨牀實踐,其價值更在於輔助醫生決策,而非取而代之。



Scroll to Top