Can Artificial Intelligence Mitigate Missed Diagnoses by Generating Differential Diagnoses for Neurosurgeons?
人工智慧是否能透過為神經外科醫師生成不同診斷來減輕漏診情況？ World Neurosurg 2024-05-17

研究指出，像ChatGPT這樣的大型語言模型對神經外科醫生在處理臨床病例時有幫助。ChatGPT 3.5和4.0在診斷方面比Perplexity AI和Bard AI更準確，前五個診斷中達到77.89%的正確率。然而，對於複雜疾病仍有挑戰。總的來說，LLMs有助於提升神經外科診斷的精準度。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

A comparison of the diagnostic ability of large language models in challenging clinical cases.
大型語言模型在挑戰性臨床案例中的診斷能力比較。 Front Artif Intell 2024-08-20

大型語言模型（LLMs）在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現，並評估了一個新開發的評分標準。結果顯示，Gemini的表現最佳，且評分工具的可靠性高，觀察者間變異性低。研究強調不同情境下模型表現的差異，並指出在實施前需評估診斷模型的有效性，為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

Interactive computer-aided diagnosis on medical image using large language models.
使用大型語言模型的醫學影像互動電腦輔助診斷。 Commun Eng 2024-09-16

這項研究提出了一種新方法，結合大型語言模型（LLMs）與電腦輔助診斷（CAD）網絡，提升胸部X光片的醫學影像分析。雖然LLMs在自然語言處理上表現優異，但在醫學影像上通常不佳。這個框架利用LLMs的優勢，改善CAD系統的診斷準確性和報告生成，讓報告品質更高。使用ChatGPT後，診斷表現提升了16.42個百分點，GPT-3則在F1-score上提高了15.00個百分點。這種創新方法有潛力改變臨床決策過程，並改善病患互動。 PubMed DOI

Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial.
大型語言模型對診斷推理的影響：一項隨機臨床試驗。 JAMA Netw Open 2024-10-28

這項研究評估大型語言模型（LLM）對醫師診斷推理的影響，與傳統資源相比。研究於2023年11月29日至12月29日進行，參與者來自多所學術機構的醫師，分為兩組：一組使用LLM和傳統資源，另一組僅用傳統資源。結果顯示，LLM組的中位診斷推理分數為76%，略高於傳統組的74%，但差異不顯著（P = .60）。不過，LLM的單獨表現比傳統資源高出16個百分點（P = .03），顯示人工智慧在臨床實踐中的潛力。 PubMed DOI

A Comparative Evaluation of Large Language Model Utility in Neuroimaging Clinical Decision Support.
大型語言模型在神經影像臨床決策支持中的效用比較評估。 J Imaging Inform Med 2024-11-07

這項研究評估了八種公開的大型語言模型（LLMs）在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示，GPT-4表現最佳，提供23個最佳建議，其次是ChatGPT有20個，而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力，並探討了評估其表現的挑戰，具有重要意義。 PubMed DOI

Comparison of Large Language Models in Diagnosis and Management of Challenging Clinical Cases.
大型語言模型在挑戰性臨床案例診斷與管理中的比較。 Clin Ophthalmol 2024-11-18

這項研究比較了十五個大型語言模型（LLMs）在處理眼科案例的表現，測試來自《JAMA Ophthalmology》的二十個案例。結果顯示，這些模型的平均得分為19，三個模型（ChatGPT 3.5、Claude Pro和Copilot Pro）表現優於平均，其中Copilot Pro得分最高。雖然這些模型的可讀性高於八年級水平，對一般人來說較難理解，但對眼科醫生則可接受。研究認為，雖然LLMs的準確性不足以單獨用於病人護理，但在協助醫生方面顯示出潛力，特別是訂閱制模型。 PubMed DOI

Comparative Analysis of Large Language Models and Spine Surgeons in Surgical Decision-Making and Radiological Assessment for Spine Pathologies.
大型語言模型與脊椎外科醫生在脊椎病理的手術決策與影像評估中的比較分析。 World Neurosurg 2024-12-02

這項研究評估了大型語言模型（LLMs），如ChatGPT和Claude，在脊椎病理的外科決策及放射影像解讀的有效性，並與經驗豐富的脊椎外科醫生進行比較。結果顯示，雖然LLMs能詳細描述MRI影像，但在準確識別病變及外科決策上表現不佳，準確率僅20%，遠低於外科醫生的100%。研究建議LLMs在輔助影像解讀和決策上有潛力，但需進一步發展以克服現有限制，並強調AI研究人員與臨床專家的合作重要性。 PubMed DOI

Textual Proficiency and Visual Deficiency: A Comparative Study of Large Language Models and Radiologists in MRI Artifact Detection and Correction.
文本能力與視覺缺陷：大型語言模型與放射科醫生在 MRI 伪影檢測與修正中的比較研究。 Acad Radiol 2025-02-12

這項研究評估大型語言模型（LLMs）在檢測和修正MRI伪影的表現，並與放射科醫生進行比較。研究分為三個階段： 1. 第一階段中，六個LLMs和五位放射科醫生回答42個文本問題，LLMs表現優於醫生，ChatGPT o1-preview得分最高。 2. 第二階段，放射科醫生評估100張含伪影的MRI影像，醫生的表現明顯優於LLMs，資深醫生準確率高。 3. 第三階段在1.5個月後重新評估，檢查回應一致性。結果顯示，LLMs在文本任務中表現佳，但在視覺解釋上仍有挑戰，建議作為教育工具或輔助系統使用。 PubMed DOI

Towards accurate differential diagnosis with large language models.
利用大型語言模型進行準確的鑑別診斷。 Nature 2025-04-09

這項研究介紹了Articulate Medical Intelligence Explorer (AMIE)，一個大型語言模型，旨在提升醫療診斷推理。研究評估AMIE在生成鑑別診斷的有效性，並與傳統方法比較。二十位臨床醫師針對302個複雜案例進行評估，結果顯示AMIE的準確率達59.1%，遠超過未經協助的醫師33.6%。使用AMIE的醫師準確率為51.7%，也高於僅依賴傳統資源的醫師。這些結果顯示AMIE有潛力提升診斷準確性，並強調在真實環境中進一步評估的必要性。 PubMed DOI

原始文章

站上相關主題文章列表