原始文章

這項研究評估大型語言模型(LLM)對醫師診斷推理的影響,與傳統資源相比。研究於2023年11月29日至12月29日進行,參與者來自多所學術機構的醫師,分為兩組:一組使用LLM和傳統資源,另一組僅用傳統資源。結果顯示,LLM組的中位診斷推理分數為76%,略高於傳統組的74%,但差異不顯著(P = .60)。不過,LLM的單獨表現比傳統資源高出16個百分點(P = .03),顯示人工智慧在臨床實踐中的潛力。 PubMed DOI


站上相關主題文章列表

GPT-4被用於病例報告的診斷挑戰,但僅在少數病例中表現良好。為了保護隱私,測試了提取術語生成提示的方法。結果顯示從結構化數據創建的提示效果更差,不同版本的GPT-4表現也不同。這凸顯了在臨床診斷中使用GPT-4的限制,強調了需要研究如何從臨床數據中創建有效提示。 PubMed DOI

研究發現,透過診斷提示,GPT-4能夠模擬臨床醫師的診斷過程並保持準確性。這對醫師理解並信任LLMs的回應很重要,有助於克服「黑盒子」問題,提升LLMs在醫學實踐中的安全性與效益。 PubMed DOI

一項研究比較了使用 GPT-4 大型語言模型(LLM)作為醫師診斷輔助工具與傳統資源的影響。這項研究涉及 50 名醫師,發現與傳統資源相比,GPT-4 在診斷推理方面並未顯著改善,但在某些臨床推理方面表現較佳。該研究指出了增強醫師與人工智慧在臨床實踐中合作的潛力。 PubMed DOI

研究比較了大型語言模型(LLMs)在臨床案例診斷上的表現,發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而,兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍,但需改進以更符合疾病發生率和文獻。 PubMed DOI

這項研究探討醫學生在與大型語言模型(如ChatGPT)和人類教練互動時,對診斷決策的影響。研究對象為158名來自柏林查理大學的四年級醫學生,他們被分配到不同的互動方式,並接受相關訓練。研究將評估資訊搜尋、假設考量、診斷準確性及信心水平等因素,並使用線性混合效應模型進行統計分析。研究已獲倫理審查批准,預期結果將為人工智慧在醫學診斷中的應用提供重要見解,並將發表於同行評審期刊。 PubMed DOI

使用大型語言模型(LLM)能顯著提升醫生在複雜管理推理任務上的表現,超越傳統資源。在一項針對92位醫生的隨機對照試驗中,使用GPT-4的醫生在管理推理任務中得分較高。研究顯示,LLM的協助能改善管理決策、診斷決策及特定案例的表現,顯示其在複雜臨床情境中做出決策的能力,特別是在缺乏明確答案的情況下。 PubMed DOI

大型語言模型(LLMs)在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現,並評估了一個新開發的評分標準。結果顯示,Gemini的表現最佳,且評分工具的可靠性高,觀察者間變異性低。研究強調不同情境下模型表現的差異,並指出在實施前需評估診斷模型的有效性,為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

這篇系統性回顧與統合分析探討大型語言模型(LLMs)在臨床腫瘤學的應用,分析了34項研究以評估其表現。研究發現,LLMs主要測試回答腫瘤學問題的能力,但因方法論和評估標準不同,表現上有顯著變異。模型能力、提示策略及特定腫瘤領域等因素影響這些變異。此外,LLMs缺乏標準化報告協議,造成方法論不一致。解決這些問題對提升研究可比性及促進LLM在臨床實踐中的應用至關重要。 PubMed DOI

這項研究比較了十五個大型語言模型(LLMs)在處理眼科案例的表現,測試來自《JAMA Ophthalmology》的二十個案例。結果顯示,這些模型的平均得分為19,三個模型(ChatGPT 3.5、Claude Pro和Copilot Pro)表現優於平均,其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平,對一般人來說較難理解,但對眼科醫生則可接受。研究認為,雖然LLMs的準確性不足以單獨用於病人護理,但在協助醫生方面顯示出潛力,特別是訂閱制模型。 PubMed DOI

最近,LLaMA3的生成式人工智慧在大型語言模型的診斷性能上有顯著提升。一項研究分析了392篇2022至2023年發表的案例報告,結果顯示LLaMA3在79.6%的案例中將最終診斷列入前10名,而LLaMA2僅49.7%。此外,LLaMA3在前5名和首要診斷的表現也更佳,分別為63%對38%和33.9%對22.7%。整體來看,LLaMA3的診斷性能改善了近1.5倍,但在臨床應用上仍需謹慎,因為這些AI模型尚未獲得醫學診斷的批准。 PubMed DOI