The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study.
GPT-3 人工智慧模型的診斷與分流準確性：一項觀察性研究。 Lancet Digit Health 2024-07-26

這項研究評估了AI語言模型GPT-3在診斷和分診的表現，並與一般人和醫生進行比較，使用了48個醫療案例。結果顯示，GPT-3在88%的案例中準確診斷，優於一般人（54%），但低於醫生（96%）。在分診準確性方面，GPT-3達70%，接近一般人（74%），但仍低於醫生（91%）。雖然GPT-3對預測的信心合理，但在急迫案例中準確性下降，偶爾會將緊急案例降為次要。總體而言，GPT-3的診斷表現不錯，但分診效果仍不如醫生。 PubMed DOI

Comparative Evaluation of AI Models Such as ChatGPT 3.5, ChatGPT 4.0, and Google Gemini in Neuroradiology Diagnostics.
神經放射學診斷中 ChatGPT 3.5、ChatGPT 4.0 和 Google Gemini 等 AI 模型的比較評估。 Cureus 2024-09-26

這項研究探討了先進人工智慧模型在放射學的診斷能力，特別是ChatGPT（3.5和4.0版本）及Google Gemini的表現。分析262道選擇題後，結果顯示ChatGPT 4.0準確率最高，達64.89%，其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異，而Google Gemini在頭頸部表現最佳，但其他領域則不佳。研究強調這些AI模型的效能差異，並呼籲進一步改進及評估，以提升其在醫療診斷和教育中的應用，並考量病人照護的倫理問題。 PubMed DOI

ChatGPT4's diagnostic accuracy in inpatient neurology: A retrospective cohort study.
住院神經科中 ChatGPT4 的診斷準確性：一項回顧性隊列研究。 Heliyon 2025-01-06

這項研究評估了ChatGPT-4在住院神經科的診斷準確性，並與顧問神經科醫師進行比較。研究使用Epic電子健康紀錄的病人數據，CG4為51位病人生成了初步診斷和治療計畫。結果顯示，CG4的平均得分為2.57，顧問醫師為2.75，整體成功率相近（CG4為96.1%，顧問醫師為94.1%）。雖然顧問醫師的全面診斷可能性略高，但CG4仍被視為神經科有價值的診斷工具。未來需進一步研究以驗證這些結果。 PubMed DOI

ChatGPT Assisting Diagnosis of Neuro-Ophthalmology Diseases Based on Case Reports.
基於案例報告的神經眼科疾病診斷輔助。 J Neuroophthalmol 2025-01-09

這項研究評估了ChatGPT（包含GPT-3.5和GPT-4）在診斷神經眼科疾病的準確性，使用了22個病例。結果顯示，GPT-3.5的正確診斷率為59%，而GPT-4提升至82%。相比之下，兩位神經眼科醫生的準確率為86%。GPT-4與專家的協議程度優於GPT-3.5，顯示出其在臨床診斷上的潛力，但仍需進一步研究以了解其在資源有限的環境中的應用。 PubMed DOI

Accuracy of commercial large language model (ChatGPT) to predict the diagnosis for prehospital patients suitable for ambulance transport decisions: Diagnostic accuracy study.
商業大型語言模型 (ChatGPT) 在預測適合救護車運輸決策的院前病人診斷的準確性：診斷準確性研究。 Prehosp Emerg Care 2025-01-31

這項研究評估了ChatGPT在根據院前病患照護報告預測診斷的準確性，結果顯示其正確率為75%。在診斷不一致的情況下，急診醫師認為救護人員在約23%的案例中更可能正確。值得注意的是，只有一個案例中AI的診斷可能對病患造成危險，顯示風險極低。總體來看，雖然ChatGPT的準確率穩定，但它常建議比救護人員更嚴重的診斷，可能導致過度分流的情況。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

Chat-GPT in triage: Still far from surpassing human expertise - An observational study.
Chat-GPT 在分診中的應用：仍然遠未超越人類專業知識 - 一項觀察性研究。 Am J Emerg Med 2025-03-22

這項研究評估了ChatGPT 4.0在急診部門進行病人分診的效果，並與人類分診人員進行比較。分析了2,658名病人的數據，結果顯示AI與人類的分診協議程度較低（kappa = 0.125）。在人類分診預測30天死亡率和生命救援需求方面，表現明顯優於AI（ROC分別為0.88對0.70及0.98對0.87）。這顯示雖然AI有潛力，但在急診分診中仍不如人類可靠，特別是對高風險病人的評估。 PubMed DOI

Patient Triage and Guidance in Emergency Departments Using Large Language Models: Multimetric Study.
利用大型語言模型於急診部門進行病患分流與指導：多指標研究 J Med Internet Res 2025-05-15

這項研究用模擬病人測試ChatGPT（GPT-4o和GPT-4-Turbo）在急診分級和門診指引的表現。經過優化後，GPT-4-Turbo用MEWS分級達到100%準確率，優於GPT-4o（96.2%）；GPT-4o在門診科別選擇也有92.6%高準確率，且情感回應更好。結果顯示，經設計的ChatGPT能有效協助急診分級與指引，但還需更多臨床驗證。 PubMed DOI

ChatGPT-o1 Preview Outperforms ChatGPT-4 as a Diagnostic Support Tool for Ankle Pain Triage in Emergency Settings.
ChatGPT-o1 Preview 在急診環境中作為踝部疼痛分診診斷輔助工具的表現優於 ChatGPT-4 Arch Acad Emerg Med 2025-06-09

這項研究發現，ChatGPT-o1 preview 在急診腳踝疼痛鑑別診斷上，比 ChatGPT-4 更清楚、準確，表現有顯著進步。雖然兩者表現都還不錯，但偶爾會出錯，還是需要醫師監督。AI 可以輔助急診分診，但無法完全取代臨床判斷。 PubMed DOI

Diagnostic efficacy of large language models in the pediatric emergency department: a pilot study.
大型語言模型於兒科急診部門的診斷效能：初步研究 Front Digit Health 2025-07-16

這項研究發現，ChatGPT-4o 在小兒急診診斷上表現比醫師還好，甚至連複雜案例也能大多答對。先進的聊天機器人有潛力協助醫師處理急診，但應該當作輔助工具，不能取代醫師，且需訂出明確的 AI 與醫師合作流程。 PubMed DOI

原始文章

站上相關主題文章列表