ChatGPT-Generated Differential Diagnosis Lists for Complex Case-Derived Clinical Vignettes: Diagnostic Accuracy Evaluation.
ChatGPT生成的複雜病例臨床案例的不同診斷列表：診斷準確性評估。 JMIR Med Inform 2023-10-26

研究比較了ChatGPT-3.5和ChatGPT-4在內科病例報告中生成診斷清單的準確性，結果顯示ChatGPT-4的正確率較高，尤其在前10名和前5名清單中超過80%。ChatGPT-4的表現接近醫師水準，顯示其在內科診斷上有潛力。未來應進一步研究其在不同病例中的準確性。 PubMed DOI

Performance of GPT-4 and GPT-3.5 in generating accurate and comprehensive diagnoses across medical subspecialties.
GPT-4和GPT-3.5在各醫學專科中生成準確和全面診斷的表現。 J Chin Med Assoc 2024-03-06

研究比較了最新的人工智慧模型 GPT-4 與前身 GPT-3.5 在81個複雜醫學案例的表現。GPT-4 在主要診斷準確率達38.3%，在不同診斷方面提高至71.6%。它在84.0%的案例提出主要診斷建議，大多數領域優於GPT-3.5，除了藥物反應。GPT-4 在感染性疾病和藥物反應方面表現優異，但在認知障礙案例中稍差。總的來說，GPT-4 在準確診斷、全面不同診斷和適當調查方面展現潛力，雖然表現因醫學專業領域而略有不同。 PubMed DOI

Learning to Make Rare and Complex Diagnoses With Generative AI Assistance: Qualitative Study of Popular Large Language Models.
透過生成式人工智慧協助學習進行罕見且複雜診斷：對流行大型語言模型的質性研究。 JMIR Med Educ 2024-03-01

研究指出大型語言模型（LLMs）如Bard、ChatGPT-3.5和GPT-4在醫學教育中對診斷罕見複雜疾病有幫助。LLMs表現比人類和MedAlpaca更好，尤其是GPT-4最準確。每個LLM需要不同的提示策略，提示工程至關重要。研究顯示LLMs能提升對具挑戰性醫學病例的診斷推理，對研究人員和醫護人員具啟發性。 PubMed DOI

Systematic analysis of ChatGPT, Google search and Llama 2 for clinical decision support tasks.
ChatGPT、Google 搜尋和 Llama 2 在臨床決策支援任務中的系統性分析。 Nat Commun 2024-03-09

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳，尤其在常見疾病方面。商業LLMs有潛力用於醫學問答，但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

Can Artificial Intelligence Mitigate Missed Diagnoses by Generating Differential Diagnoses for Neurosurgeons?
人工智慧是否能透過為神經外科醫師生成不同診斷來減輕漏診情況？ World Neurosurg 2024-05-17

研究指出，像ChatGPT這樣的大型語言模型對神經外科醫生在處理臨床病例時有幫助。ChatGPT 3.5和4.0在診斷方面比Perplexity AI和Bard AI更準確，前五個診斷中達到77.89%的正確率。然而，對於複雜疾病仍有挑戰。總的來說，LLMs有助於提升神經外科診斷的精準度。 PubMed DOI

Evaluating ChatGPT-4's Accuracy in Identifying Final Diagnoses Within Differential Diagnoses Compared With Those of Physicians: Experimental Study for Diagnostic Cases.
ChatGPT-4 在辨識差異診斷中最終診斷的準確性：與醫師對比的評估研究。診斷案例的實驗研究。 JMIR Form Res 2024-06-26

這項研究評估了由人工智慧驅動的聊天機器人GPT-4在醫學病例報告中從潛在診斷清單中識別最終診斷的能力。GPT-4在識別最終診斷方面與醫師表現出公平至良好的一致性，顯示其有潛力協助臨床決策。需要在真實世界情境和不同臨床環境中進行進一步驗證，以充分了解其在醫學診斷中的實用性。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

A comparison of the diagnostic ability of large language models in challenging clinical cases.
大型語言模型在挑戰性臨床案例中的診斷能力比較。 Front Artif Intell 2024-08-20

大型語言模型（LLMs）在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現，並評估了一個新開發的評分標準。結果顯示，Gemini的表現最佳，且評分工具的可靠性高，觀察者間變異性低。研究強調不同情境下模型表現的差異，並指出在實施前需評估診斷模型的有效性，為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

Accuracy Evaluation of GPT-Assisted Differential Diagnosis in Emergency Department.
急診部門中 GPT 輔助鑑別診斷的準確性評估。 Diagnostics (Basel) 2024-08-29

在急診部門，快速且準確的診斷對病人結果和醫療效率非常重要。本研究評估了ChatGPT-3.5和ChatGPT-4在根據急診入院前24小時的電子健康紀錄生成鑑別診斷清單的表現。結果顯示，兩者在預測身體系統層級的診斷上都相當準確，GPT-4稍優於GPT-3.5，但在具體診斷類別上表現不一，精確度較低。值得注意的是，GPT-4在幾個關鍵類別中展現了更高的準確性，顯示其在處理複雜臨床情況上的優勢。 PubMed DOI

Diagnostic Accuracy of a Custom Large Language Model on Rare Pediatric Disease Case Reports.
自訂大型語言模型在罕見兒童疾病病例報告中的診斷準確性。 Am J Med Genet A 2024-09-13

診斷罕見兒科疾病相當具挑戰性，因為這些疾病的表現複雜。本研究評估了三種大型語言模型（LLMs）的診斷表現：GPT-4、Gemini Pro，以及一個整合Human Phenotype Ontology的自訂模型（GPT-4 HPO），針對61個罕見疾病進行分析。結果顯示，GPT-4的準確率為13.1%，而GPT-4 HPO和Gemini Pro均為8.2%。特別是GPT-4 HPO在鑑別診斷和疾病分類上表現較佳。這些結果顯示大型語言模型在診斷支持上有潛力，但仍需改進以便更好地融入臨床實踐。 PubMed DOI

原始文章

站上相關主題文章列表