The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study.
GPT-3 人工智慧模型的診斷與分流準確性：一項觀察性研究。 Lancet Digit Health 2024-07-26

這項研究評估了AI語言模型GPT-3在診斷和分診的表現，並與一般人和醫生進行比較，使用了48個醫療案例。結果顯示，GPT-3在88%的案例中準確診斷，優於一般人（54%），但低於醫生（96%）。在分診準確性方面，GPT-3達70%，接近一般人（74%），但仍低於醫生（91%）。雖然GPT-3對預測的信心合理，但在急迫案例中準確性下降，偶爾會將緊急案例降為次要。總體而言，GPT-3的診斷表現不錯，但分診效果仍不如醫生。 PubMed DOI

Performance of ChatGPT in emergency medicine residency exams in Qatar: A comparative analysis with resident physicians.
卡塔爾急診醫學住院醫師考試中 ChatGPT 的表現：與住院醫師的比較分析。 Qatar Med J 2024-11-18

人工智慧（AI）在醫療領域的應用對醫學實踐影響深遠，尤其在教育、診斷和治療方面。本研究評估了OpenAI的ChatGPT在卡塔爾急診醫學住院醫師考試中的表現，並與住院醫師的成績進行比較。結果顯示，ChatGPT在所有考試類別中均表現優於住院醫師，但高年級住院醫師的及格率卻下降，顯示考試成績與實際技能之間的脫節，可能與COVID-19疫情對教育的影響有關。總體而言，ChatGPT在急診醫學領域展現出強大的理論知識，顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

A Clinical Evaluation of Cardiovascular Emergencies: A Comparison of Responses from ChatGPT, Emergency Physicians, and Cardiologists.
心血管急症的臨床評估：ChatGPT、急診醫師與心臟科醫師反應的比較。 Diagnostics (Basel) 2024-12-17

這項研究評估了ChatGPT-4o在急性心臟病案例中的表現，並與心臟科醫生和急診醫生進行比較。結果顯示，ChatGPT-4o和心臟科醫生的準確性均達100%，而急診醫生較低。ChatGPT-4o反應最快，且在準確性和完整性上得分最高。研究顯示，ChatGPT-4o的表現優於人類醫生，顯示其在臨床決策支持上的潛力，但人類監督仍然對安全整合AI進醫療至關重要。 PubMed DOI

ChatGPT4's diagnostic accuracy in inpatient neurology: A retrospective cohort study.
住院神經科中 ChatGPT4 的診斷準確性：一項回顧性隊列研究。 Heliyon 2025-01-06

這項研究評估了ChatGPT-4在住院神經科的診斷準確性，並與顧問神經科醫師進行比較。研究使用Epic電子健康紀錄的病人數據，CG4為51位病人生成了初步診斷和治療計畫。結果顯示，CG4的平均得分為2.57，顧問醫師為2.75，整體成功率相近（CG4為96.1%，顧問醫師為94.1%）。雖然顧問醫師的全面診斷可能性略高，但CG4仍被視為神經科有價值的診斷工具。未來需進一步研究以驗證這些結果。 PubMed DOI

Can ChatGPT 4.0 Diagnose Acute Aortic Dissection? Integrating Artificial Intelligence into Medical Diagnostics.
ChatGPT 4.0 能否診斷急性主動脈剝離？將人工智慧整合進醫學診斷中。 Am J Cardiol 2025-01-18

急性主動脈剝離（AD）是一種危及生命的疾病，常因症狀與其他病症相似而被誤診。本研究探討了OpenAI的AI模型ChatGPT 4.0在診斷急性AD的有效性。透過系統性搜尋PubMed，找到163篇案例報告，隨機分析十篇。患者年齡介於29至82歲，性別分佈均衡，高血壓為常見合併症。結果顯示，ChatGPT 4.0能成功將急性AD列為前三名的鑑別診斷之一，並在五個案例中確定為主要診斷。研究指出，ChatGPT 4.0可作為輔助工具，幫助醫生進行早期篩檢。 PubMed DOI

Chat-GPT in triage: Still far from surpassing human expertise - An observational study.
Chat-GPT 在分診中的應用：仍然遠未超越人類專業知識 - 一項觀察性研究。 Am J Emerg Med 2025-03-22

這項研究評估了ChatGPT 4.0在急診部門進行病人分診的效果，並與人類分診人員進行比較。分析了2,658名病人的數據，結果顯示AI與人類的分診協議程度較低（kappa = 0.125）。在人類分診預測30天死亡率和生命救援需求方面，表現明顯優於AI（ROC分別為0.88對0.70及0.98對0.87）。這顯示雖然AI有潛力，但在急診分診中仍不如人類可靠，特別是對高風險病人的評估。 PubMed DOI

Preliminary evaluation of ChatGPT model iterations in emergency department diagnostics.
急診科診斷中 ChatGPT 模型迭代的初步評估。 Sci Rep 2025-03-27

這項回顧性研究評估了不同ChatGPT模型（如GPT-3.5、GPT-4等）在預測急診病人診斷的表現。研究針對30名病人，發現GPT-3.5在前三名鑑別診斷的準確率高達80%，但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過，所有模型在處理非典型案例時仍面臨挑戰，顯示其在急診環境中的應用限制。 PubMed DOI

Generative Artificial Intelligence Models in Clinical Infectious Disease Consultations: A Cross-Sectional Analysis Among Specialists and Resident Trainees.
臨床傳染病諮詢中的生成式人工智慧模型：專家與住院醫師之間的橫斷面分析。 Healthcare (Basel) 2025-04-12

本研究探討生成式人工智慧（GenAI）在臨床微生物學和傳染病諮詢中的應用潛力。透過評估四款聊天機器人（如GPT-4.0），研究發現GPT-4.0在事實一致性、全面性及無醫療危害性方面表現優於其他兩款。專家對AI回應的評分顯著高於住院醫師，且專家認為回應“無害”的可能性更高，但仍有少於兩成的回應被認為無害。研究強調醫療人員的專業知識對AI回應的解讀影響深遠，並指出目前無AI模型可在無人監督下安全使用於臨床。 PubMed DOI

Assessing artificial intelligence-generated patient discharge information for the emergency department: a pilot study.
急診部門人工智慧生成病人出院資訊之評估：一項初步研究 Int J Emerg Med 2025-04-25

這項研究用ChatGPT/GPT-4和翻譯軟體，快速製作三種常見急診主訴的AI出院衛教手冊。八位急診醫師給予高分評價，但部分內容還需修正。手冊可讀性約在高中到大學程度，可能有高估。AI能有效產出衛教資料，但仍需人工審核，未來還要研究對病人的實際幫助及擴展應用。 PubMed DOI

Diagnostic efficacy of large language models in the pediatric emergency department: a pilot study.
大型語言模型於兒科急診部門的診斷效能：初步研究 Front Digit Health 2025-07-16

這項研究發現，ChatGPT-4o 在小兒急診診斷上表現比醫師還好，甚至連複雜案例也能大多答對。先進的聊天機器人有潛力協助醫師處理急診，但應該當作輔助工具，不能取代醫師，且需訂出明確的 AI 與醫師合作流程。 PubMed DOI

原始文章

站上相關主題文章列表