Evaluation of ChatGPT-Generated Differential Diagnosis for Common Diseases With Atypical Presentation: Descriptive Research.
ChatGPT生成的常見疾病非典型表現的鑑別診斷評估：描述性研究。 JMIR Med Educ 2024-06-25

研究發現ChatGPT在辨識非典型疾病表現上有一定準確性，但對高度非典型案例的表現較差。儘管對典型和輕微非典型案例有潛力，但隨著非典型性增加，表現也下降。研究強調AI系統需結合多樣語言能力和臨床情境，以提升現實世界的診斷效果。 PubMed DOI

Evaluating ChatGPT-4's Accuracy in Identifying Final Diagnoses Within Differential Diagnoses Compared With Those of Physicians: Experimental Study for Diagnostic Cases.
ChatGPT-4 在辨識差異診斷中最終診斷的準確性：與醫師對比的評估研究。診斷案例的實驗研究。 JMIR Form Res 2024-06-26

這項研究評估了由人工智慧驅動的聊天機器人GPT-4在醫學病例報告中從潛在診斷清單中識別最終診斷的能力。GPT-4在識別最終診斷方面與醫師表現出公平至良好的一致性，顯示其有潛力協助臨床決策。需要在真實世界情境和不同臨床環境中進行進一步驗證，以充分了解其在醫學診斷中的實用性。 PubMed DOI

Evaluation of ChatGPT as a diagnostic tool for medical learners and clinicians.
評估 ChatGPT 作為醫學學習者和臨床醫師的診斷工具。 PLoS One 2024-07-31

這項研究評估了ChatGPT在醫學訓練中的診斷準確性和教育效用。分析150個Medscape案例後，發現ChatGPT正確回答49%的案例，整體診斷準確率為74%。雖然在解讀實驗室數值和影像結果上有些限制，但它在教育上顯示出潛力，能有效排除某些鑑別診斷並建議後續步驟，讓複雜的醫學概念更易理解。未來研究應著重提升其教育能力。 PubMed DOI

The Diagnostic Ability of GPT-3.5 and GPT-4.0 in Surgery: Comparative Analysis.
GPT-3.5 和 GPT-4.0 在外科診斷能力的比較分析。 J Med Internet Res 2024-09-10

這項研究評估了ChatGPT在診斷結腸癌的能力，特別是比較GPT-3.5和GPT-4.0的表現。研究分析了286份腸癌病例，結果顯示GPT-4.0在初診和次診的準確率均高於GPT-3.5，分別為0.972對0.855和0.908對0.617。雖然GPT-4.0在處理病史和實驗室數據上有所改善，但在識別症狀方面仍有挑戰。整體而言，GPT-4.0在臨床輔助診斷中展現出潛力，但仍需進一步研究以克服其限制。 PubMed DOI

Accuracy of a ChatGPT in Diagnosing Urologic Conditions from Cross-Sectional Imaging.
ChatGPT 在從橫斷面影像診斷泌尿科疾病的準確性。 Urology 2024-11-27

這項研究評估了ChatGPT在泌尿科醫學影像解讀的有效性，特別是CT和MRI影像。結果顯示，ChatGPT在14%的CT和28%的MRI案例中準確識別首要診斷，雖然無顯著差異，但加入器官指導後，CT影像的準確率提升了18%。整體來看，雖然ChatGPT的初步有效性有限，但在用戶指導下，其表現可顯著改善，顯示AI在臨床應用中的潛力與限制。 PubMed DOI

Can ChatGPT 4.0 Diagnose Acute Aortic Dissection? Integrating Artificial Intelligence into Medical Diagnostics.
ChatGPT 4.0 能否診斷急性主動脈剝離？將人工智慧整合進醫學診斷中。 Am J Cardiol 2025-01-18

急性主動脈剝離（AD）是一種危及生命的疾病，常因症狀與其他病症相似而被誤診。本研究探討了OpenAI的AI模型ChatGPT 4.0在診斷急性AD的有效性。透過系統性搜尋PubMed，找到163篇案例報告，隨機分析十篇。患者年齡介於29至82歲，性別分佈均衡，高血壓為常見合併症。結果顯示，ChatGPT 4.0能成功將急性AD列為前三名的鑑別診斷之一，並在五個案例中確定為主要診斷。研究指出，ChatGPT 4.0可作為輔助工具，幫助醫生進行早期篩檢。 PubMed DOI

Evaluating ChatGPT-4 for the Interpretation of Images from Several Diagnostic Techniques in Gastroenterology.
評估 ChatGPT-4 在消化內科多種診斷技術影像解讀中的應用。 J Clin Med 2025-01-25

這項研究評估了ChatGPT-4在解讀各種胃腸科影像的表現，分析了740張影像，並將預測結果與既有診斷進行比較。結果顯示，ChatGPT-4的準確性在不同程序中差異明顯，膠囊內視鏡的準確率介於50%到90%之間，設備輔助腸鏡為67%，而內視鏡超音波和高解析度肛門鏡的表現則較差。整體來看，這顯示ChatGPT-4的診斷能力尚不理想，臨床應用前仍需進一步改進。 PubMed DOI

Accuracy of commercial large language model (ChatGPT) to predict the diagnosis for prehospital patients suitable for ambulance transport decisions: Diagnostic accuracy study.
商業大型語言模型 (ChatGPT) 在預測適合救護車運輸決策的院前病人診斷的準確性：診斷準確性研究。 Prehosp Emerg Care 2025-01-31

這項研究評估了ChatGPT在根據院前病患照護報告預測診斷的準確性，結果顯示其正確率為75%。在診斷不一致的情況下，急診醫師認為救護人員在約23%的案例中更可能正確。值得注意的是，只有一個案例中AI的診斷可能對病患造成危險，顯示風險極低。總體來看，雖然ChatGPT的準確率穩定，但它常建議比救護人員更嚴重的診斷，可能導致過度分流的情況。 PubMed DOI

Preliminary evaluation of ChatGPT model iterations in emergency department diagnostics.
急診科診斷中 ChatGPT 模型迭代的初步評估。 Sci Rep 2025-03-27

這項回顧性研究評估了不同ChatGPT模型（如GPT-3.5、GPT-4等）在預測急診病人診斷的表現。研究針對30名病人，發現GPT-3.5在前三名鑑別診斷的準確率高達80%，但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過，所有模型在處理非典型案例時仍面臨挑戰，顯示其在急診環境中的應用限制。 PubMed DOI

Performance of Large Language Models (ChatGPT and Gemini Advanced) in Gastrointestinal Pathology and Clinical Review of Applications in Gastroenterology.
大型語言模型（ChatGPT 與 Gemini Advanced）在腸胃道病理學的表現及其於腸胃科應用的臨床回顧 Cureus 2025-05-05

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示，ChatGPT-4.0和Gemini Advanced部分表現較佳，但整體水準還是普通。三款AI都無法正確判斷癌症分期，且有不少引用文獻是假的。研究認為，AI雖然進步中，但臨床應用前還是需要專家把關。 PubMed DOI

原始文章

站上相關主題文章列表