The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study.
GPT-3 人工智慧模型的診斷與分流準確性：一項觀察性研究。 Lancet Digit Health 2024-07-26

這項研究評估了AI語言模型GPT-3在診斷和分診的表現，並與一般人和醫生進行比較，使用了48個醫療案例。結果顯示，GPT-3在88%的案例中準確診斷，優於一般人（54%），但低於醫生（96%）。在分診準確性方面，GPT-3達70%，接近一般人（74%），但仍低於醫生（91%）。雖然GPT-3對預測的信心合理，但在急迫案例中準確性下降，偶爾會將緊急案例降為次要。總體而言，GPT-3的診斷表現不錯，但分診效果仍不如醫生。 PubMed DOI

Performance of ChatGPT-4o in the diagnostic workup of fever among returning travelers requiring hospitalization: a validation study.
回國旅客住院時發燒診斷工作中 ChatGPT-4o 的表現：一項驗證研究。 J Travel Med 2025-01-17

這項研究評估了ChatGPT-4o在診斷從流行區域回來的旅客發燒疾病的表現。研究分析了2009至2024年間114名住院發燒旅客的醫療紀錄，並將臨床情境提供給ChatGPT-4o。結果顯示，當要求提供最可能的診斷時，準確率為68%；前三名診斷的準確率為78%；所有可能診斷的準確率為83%。特別是在瘧疾方面，該模型的敏感性達100%，特異性94%。整體而言，ChatGPT-4o在評估回國旅客的發燒疾病上表現良好，未來可望進一步提升臨床決策的實用性。 PubMed DOI

Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

Large Language Models for Pediatric Differential Diagnoses in Rural Health Care: Multicenter Retrospective Cohort Study Comparing GPT-3 With Pediatrician Performance.
大型語言模型在鄉村醫療中對兒科鑑別診斷的應用：多中心回顧性隊列研究比較 GPT-3 與兒科醫生的表現。 JMIRx Med 2025-03-19

這項研究探討了一個微調過的GPT-3模型在農村醫療環境中對兒科病例診斷的有效性，因為這些地區專家資源有限。研究分析了路易斯安那州中部的500個兒科就診案例，發現模型準確率達87.3%，敏感度和特異度分別為85%和90%，與兒科醫生的91.3%相當。模型在不同年齡組和常見病症中表現穩定，但對罕見診斷的準確率稍低。總體來說，這個微調的GPT-3模型可作為農村兒科護理的可靠診斷工具，但仍需在不同人群中進一步驗證。 PubMed DOI

Generative Large Language Model-Powered Conversational AI App for Personalized Risk Assessment: Case Study in COVID-19.
基於生成大型語言模型的對話式人工智慧應用於個性化風險評估：COVID-19 案例研究。 JMIR AI 2025-03-27

這項研究探討大型語言模型（LLMs）在疾病風險評估中的應用，特別是對COVID-19嚴重程度的預測。與傳統機器學習方法不同，LLMs透過對話式人工智慧實現即時、無需編碼的風險評估。研究比較了LLaMA2-7b和Flan-T5-xl等預訓練模型與傳統分類器的表現，發現LLMs在低數據環境中表現優異，能有效處理非結構化輸入，並提供個性化見解，顯示其在臨床環境中的潛力。 PubMed DOI

Integrating a host transcriptomic biomarker with a large language model for diagnosis of lower respiratory tract infection.
結合宿主轉錄體生物標記與大型語言模型於下呼吸道感染的診斷 medRxiv 2025-04-16

研究發現，把肺部生物標記（FABP4 基因表現）和 GPT-4 AI 分析電子病歷結合，診斷重症成人下呼吸道感染的準確率最高可達 96%，比單獨使用或傳統診斷更準。這種結合方式有望大幅提升重症病人 LRTI 的診斷效果。 PubMed DOI

LLMonFHIR: A Physician-Validated, Large Language Model-Based Mobile Application for Querying Patient Electronic Health Data.
LLMonFHIR：經醫師驗證、基於大型語言模型的行動應用程式，用於查詢病患電子健康資料 JACC Adv 2025-05-15

這項研究推出 LLMonFHIR 行動 App，運用大型語言模型，幫助慢性心血管病人用多種語言、不同難度，甚至語音方式，查詢自己的電子健康紀錄。初步測試顯示，醫師認為 App 回覆正確、好懂又實用。雖然在健康摘要和檢驗數據查詢上還有改進空間，但 LLMonFHIR 有助於解決語言和健康素養障礙，讓病人更容易掌握自己的健康資訊。 PubMed DOI

Performance of the Large Language Models in African rheumatology: a diagnostic test accuracy study of ChatGPT-4, Gemini, Copilot, and Claude artificial intelligence.
非洲風濕病學中大型語言模型的表現：ChatGPT-4、Gemini、Copilot 與 Claude 人工智慧之診斷準確性研究 BMC Rheumatol 2025-05-16

這項研究比較了四種AI語言模型在風濕病診斷上的表現，發現ChatGPT-4和Claude AI的準確率最高，超過85%，尤其在感染性疾病診斷上表現突出。不過，所有AI在腫瘤相關疾病的診斷上都比較弱。整體來說，先進AI有助於提升非洲地區風濕病診斷，但對某些疾病還有改進空間。 PubMed DOI

IMPACT: an interactive multi-disease prevention and counterfactual treatment system using explainable AI and a multimodal LLM.
IMPACT：一個結合可解釋式 AI 與多模態大型語言模型（LLM）的互動式多重疾病預防與反事實治療系統 PeerJ Comput Sci 2025-06-26

這篇文章介紹一個互動系統，結合可解釋式AI、Google Gemini Pro和基因演算法，能根據個人狀況，給出簡單又客製化的健康建議，幫助大家同時預防多種疾病。即使沒醫學背景，也能輕鬆管理健康、降低心臟病或糖尿病等風險，讓多重疾病預防更普及又有效。 PubMed DOI

原始文章

站上相關主題文章列表