Diagnostic Accuracy of Differential-Diagnosis Lists Generated by Generative Pretrained Transformer 3 Chatbot for Clinical Vignettes with Common Chief Complaints: A Pilot Study.
由生成預訓練變換器3聊天機器人生成的不同診斷清單對具有常見主訴的臨床案例的診斷準確性：一項初步研究。 Int J Environ Res Public Health 2023-11-17

研究發現ChatGPT-3對臨床案例診斷的正確率為93.3%，但醫師的正確率高達98.3%，且更擅長辨識頂級診斷。ChatGPT-3生成的診斷清單中，醫師間一致性為70.5%。總結來說，AI聊天機器人在診斷方面有潛力，但排序仍有改進空間。 PubMed DOI

Comparative Evaluation of Diagnostic Accuracy Between Google Bard and Physicians.
Google Bard 與醫師之間的診斷準確性比較評估。 Am J Med 2023-10-22

研究比較了Google Bard與醫師的診斷準確性，結果顯示醫師表現較佳，尤其在案例報告方面。然而，Google Bard在常見案例中表現與醫師相當，顯示其有進步空間。生成式人工智慧如Google Bard未來有望提升診斷準確性。 PubMed DOI

Comparing Diagnostic Accuracy of Radiologists versus GPT-4V and Gemini Pro Vision Using Image Inputs from Diagnosis Please Cases.
比較放射科醫師與 GPT-4V 及 Gemini Pro Vision 在使用來自「請診斷」案例的影像輸入時的診斷準確性。 Radiology 2024-07-09

研究比較了GPT-4V和Gemini Pro Vision等大型語言模型在診斷能力上的表現，結果顯示隨著溫度設定提高，準確性也增加。儘管放射科醫師整體表現較佳，尤其在高溫度下，但這些模型在診斷決策上顯示出潛力成為輔助工具。 PubMed DOI

The accuracy of Gemini, GPT-4, and GPT-4o in ECG analysis: A comparison with cardiologists and emergency medicine specialists.
Gemini、GPT-4 和 GPT-4o 在心電圖分析中的準確性：與心臟科醫生和急診醫學專家的比較。 Am J Emerg Med 2024-08-03

這項研究評估了三種大型語言模型（LLMs）—GPT-4、GPT-4o 和 Gemini Advanced—在解讀心電圖（ECGs）的表現，並與心臟科醫生及急診醫學專家的表現進行比較。研究結果顯示，心臟科醫生的表現始終優於這些模型，急診醫學專家在常規心電圖評估中也超越了GPT-4o。雖然GPT-4o在某些挑戰性案例中展現潛力，但整體準確性和一致性仍不及人類專家，顯示在臨床應用中使用這些模型存在風險。 PubMed DOI

A comparison of the diagnostic ability of large language models in challenging clinical cases.
大型語言模型在挑戰性臨床案例中的診斷能力比較。 Front Artif Intell 2024-08-20

大型語言模型（LLMs）在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現，並評估了一個新開發的評分標準。結果顯示，Gemini的表現最佳，且評分工具的可靠性高，觀察者間變異性低。研究強調不同情境下模型表現的差異，並指出在實施前需評估診斷模型的有效性，為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

Diagnostic performance of generative artificial intelligences for a series of complex case reports.
生成式人工智慧在一系列複雜病例報告中的診斷表現。 Digit Health 2024-09-04

這項研究評估了大型語言模型（LLMs）在複雜醫療案例中的診斷表現。研究分析了392份來自《美國病例報告期刊》的案例，使用了ChatGPT-4、Google Gemini和LLaMA2來生成鑑別診斷清單。結果顯示，ChatGPT-4的前10名診斷中，最終診斷納入率最高，達86.7%，其次是Google Gemini的68.6%和LLaMA2的54.6%。研究顯示ChatGPT-4在診斷準確性上明顯優於其他兩者，突顯了生成式人工智慧在醫療診斷中的潛力。 PubMed DOI

Diagnostic Accuracy of a Custom Large Language Model on Rare Pediatric Disease Case Reports.
自訂大型語言模型在罕見兒童疾病病例報告中的診斷準確性。 Am J Med Genet A 2024-09-13

診斷罕見兒科疾病相當具挑戰性，因為這些疾病的表現複雜。本研究評估了三種大型語言模型（LLMs）的診斷表現：GPT-4、Gemini Pro，以及一個整合Human Phenotype Ontology的自訂模型（GPT-4 HPO），針對61個罕見疾病進行分析。結果顯示，GPT-4的準確率為13.1%，而GPT-4 HPO和Gemini Pro均為8.2%。特別是GPT-4 HPO在鑑別診斷和疾病分類上表現較佳。這些結果顯示大型語言模型在診斷支持上有潛力，但仍需改進以便更好地融入臨床實踐。 PubMed DOI

Gemini AI vs. ChatGPT: A comprehensive examination alongside ophthalmology residents in medical knowledge.
Gemini AI 與 ChatGPT：與眼科住院醫師在醫學知識上的全面比較。 Graefes Arch Clin Exp Ophthalmol 2024-09-15

這項研究探討了先進的人工智慧模型，特別是ChatGPT和Google的Gemini AI，在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現，使用了600道來自以色列住院醫師考試的問題。結果顯示，Gemini Advanced的準確率最高，達66%，其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色，並指出需要進一步改進，以提升其在不同子專科的有效性，對改善病人護理具有潛力。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

Comparative Analysis of Diagnostic Performance: Differential Diagnosis Lists by LLaMA3 Versus LLaMA2 for Case Reports.
LLaMA3 與 LLaMA2 在病例報告中的診斷性能比較分析：鑑別診斷清單。 JMIR Form Res 2024-11-19

最近，LLaMA3的生成式人工智慧在大型語言模型的診斷性能上有顯著提升。一項研究分析了392篇2022至2023年發表的案例報告，結果顯示LLaMA3在79.6%的案例中將最終診斷列入前10名，而LLaMA2僅49.7%。此外，LLaMA3在前5名和首要診斷的表現也更佳，分別為63%對38%和33.9%對22.7%。整體來看，LLaMA3的診斷性能改善了近1.5倍，但在臨床應用上仍需謹慎，因為這些AI模型尚未獲得醫學診斷的批准。 PubMed DOI

原始文章

站上相關主題文章列表