On the limitations of large language models in clinical diagnosis.
大型語言模型在臨床診斷中的限制。 medRxiv 2024-03-06

GPT-4被用於病例報告的診斷挑戰，但僅在少數病例中表現良好。為了保護隱私，測試了提取術語生成提示的方法。結果顯示從結構化數據創建的提示效果更差，不同版本的GPT-4表現也不同。這凸顯了在臨床診斷中使用GPT-4的限制，強調了需要研究如何從臨床數據中創建有效提示。 PubMed DOI

Learning to Make Rare and Complex Diagnoses With Generative AI Assistance: Qualitative Study of Popular Large Language Models.
透過生成式人工智慧協助學習進行罕見且複雜診斷：對流行大型語言模型的質性研究。 JMIR Med Educ 2024-03-01

研究指出大型語言模型（LLMs）如Bard、ChatGPT-3.5和GPT-4在醫學教育中對診斷罕見複雜疾病有幫助。LLMs表現比人類和MedAlpaca更好，尤其是GPT-4最準確。每個LLM需要不同的提示策略，提示工程至關重要。研究顯示LLMs能提升對具挑戰性醫學病例的診斷推理，對研究人員和醫護人員具啟發性。 PubMed DOI

Assessing the Utility of Large Language Models for Phenotype-Driven Gene Prioritization in Rare Genetic Disorder Diagnosis.
評估大型語言模型在罕見遺傳疾病診斷中基因優先排序的效用。 ArXiv 2024-04-02

研究評估大型語言模型在基因組分析中的應用潛力，以診斷罕見遺傳疾病。最佳模型準確率為16.0%，低於傳統工具，但隨模型大小增加，準確性提高。自由文本輸入可提高預測準確性，但某些基因可能存在偏見。總結，大型語言模型在基因組分析中有應用價值。 PubMed DOI

A systematic evaluation of the performance of GPT-4 and PaLM2 to diagnose comorbidities in MIMIC-IV patients.
GPT-4和PaLM2在MIMIC-IV患者中診斷合併症表現的系統評估。 Health Care Sci 2024-06-28

研究用醫院病歷數據評估GPT-4和PaLM2的診斷準確度，結果發現GPT-4達93.9%，PaLM2為84.7%。顯示人工智慧可協助減少診斷錯誤，但仍需人類監督。整合AI到醫療面臨道德、責任和監管挑戰。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

Comparing Diagnostic Accuracy of Radiologists versus GPT-4V and Gemini Pro Vision Using Image Inputs from Diagnosis Please Cases.
比較放射科醫師與 GPT-4V 及 Gemini Pro Vision 在使用來自「請診斷」案例的影像輸入時的診斷準確性。 Radiology 2024-07-09

研究比較了GPT-4V和Gemini Pro Vision等大型語言模型在診斷能力上的表現，結果顯示隨著溫度設定提高，準確性也增加。儘管放射科醫師整體表現較佳，尤其在高溫度下，但這些模型在診斷決策上顯示出潛力成為輔助工具。 PubMed DOI

Evaluation of the Diagnostic Accuracy of GPT-4 in Five Thousand Rare Disease Cases.
GPT-4 在五千例罕見疾病案例中的診斷準確性評估。 medRxiv 2024-08-07

這項研究評估了GPT-4在診斷罕見疾病的表現，使用了5,267份以phenopackets格式整理的案例報告。研究旨在克服以往樣本量小和主觀評估的問題。結果顯示，GPT-4的正確診斷平均倒數排名（MRR）為0.24，表示在19.2%的案例中正確診斷排名第一，28.6%排名前三，32.5%排名前十。這是迄今對大型語言模型在罕見疾病診斷的最大分析，提供了更真實的能力評估。 PubMed DOI

A comparison of the diagnostic ability of large language models in challenging clinical cases.
大型語言模型在挑戰性臨床案例中的診斷能力比較。 Front Artif Intell 2024-08-20

大型語言模型（LLMs）在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現，並評估了一個新開發的評分標準。結果顯示，Gemini的表現最佳，且評分工具的可靠性高，觀察者間變異性低。研究強調不同情境下模型表現的差異，並指出在實施前需評估診斷模型的有效性，為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

Diagnostic performance of generative artificial intelligences for a series of complex case reports.
生成式人工智慧在一系列複雜病例報告中的診斷表現。 Digit Health 2024-09-04

這項研究評估了大型語言模型（LLMs）在複雜醫療案例中的診斷表現。研究分析了392份來自《美國病例報告期刊》的案例，使用了ChatGPT-4、Google Gemini和LLaMA2來生成鑑別診斷清單。結果顯示，ChatGPT-4的前10名診斷中，最終診斷納入率最高，達86.7%，其次是Google Gemini的68.6%和LLaMA2的54.6%。研究顯示ChatGPT-4在診斷準確性上明顯優於其他兩者，突顯了生成式人工智慧在醫療診斷中的潛力。 PubMed DOI

Assessing the utility of large language models for phenotype-driven gene prioritization in the diagnosis of rare genetic disease.
評估大型語言模型在罕見遺傳疾病診斷中基於表現型的基因優先排序的實用性。 Am J Hum Genet 2024-09-10

這項研究探討大型語言模型（LLMs）在診斷罕見遺傳疾病中的應用，特別是基於表型的基因優先排序。研究比較了五種LLMs，結果顯示GPT-4的表現最佳，能在前50個預測中準確識別17.0%的診斷基因，但仍低於傳統方法。雖然較大的模型通常表現較好，先進技術如檢索增強生成並未提升準確性，但精緻的提示改善了任務完整性。整體而言，這些發現顯示LLMs在基因組分析中的潛力與限制，對臨床應用有重要影響。 PubMed DOI

原始文章

站上相關主題文章列表