The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study.
GPT-3 人工智慧模型的診斷與分流準確性：一項觀察性研究。 Lancet Digit Health 2024-07-26

這項研究評估了AI語言模型GPT-3在診斷和分診的表現，並與一般人和醫生進行比較，使用了48個醫療案例。結果顯示，GPT-3在88%的案例中準確診斷，優於一般人（54%），但低於醫生（96%）。在分診準確性方面，GPT-3達70%，接近一般人（74%），但仍低於醫生（91%）。雖然GPT-3對預測的信心合理，但在急迫案例中準確性下降，偶爾會將緊急案例降為次要。總體而言，GPT-3的診斷表現不錯，但分診效果仍不如醫生。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Large language models for pretreatment education in pediatric radiation oncology: A comparative evaluation study.
大型語言模型在小兒放射腫瘤學中的預處理教育：一項比較評估研究。 Clin Transl Radiat Oncol 2025-01-27

這項研究評估了GPT-3.5和GPT-4在小兒放射治療患者及其家長教育上的有效性。研究發現，GPT-4和放射腫瘤科醫生的回答質量最高，但GPT-4的回答有時過於冗長。微調過的GPT-3.5表現優於基本版本，但常常提供過於簡化的答案。整體來看，GPT-4可作為小兒放射腫瘤學患者及家庭的有用教育資源，雖然使用GPT-3.5時需謹慎，因為它可能產生不足的回答。 PubMed DOI

Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Language Artificial Intelligence Models as Pioneers in Diagnostic Medicine? A Retrospective Analysis on Real-Time Patients.
語言人工智慧模型作為診斷醫學的先驅？對即時患者的回顧性分析。 J Clin Med 2025-02-26

本研究探討AI模型（如GPT-3.5和GPT-4）在急診科生成病症鑑別診斷的表現，並與急診科醫師的準確性進行比較。結果顯示，ChatGPT-4的準確率為85.5%，略高於ChatGPT-3.5的84.6%和醫師的83%。特別是在腸胃主訴方面，ChatGPT-4的準確性達87.5%。研究顯示AI模型在臨床決策中具潛在應用價值，建議未來進一步探索AI在醫療中的應用。 PubMed DOI

Assessing the performance of large language models (GPT-3.5 and GPT-4) and accurate clinical information for pediatric nephrology.
評估大型語言模型（GPT-3.5 和 GPT-4）在小兒腎臟科準確臨床資訊的表現。 Pediatr Nephrol 2025-03-05

這項研究評估了兩個AI語言模型，GPT-3.5和GPT-4，在小兒腎臟科臨床資訊的有效性。40位小兒腎臟科專家對這些模型進行了評分，結果顯示兩者表現相似，GPT-4稍微高一些，但差異不顯著。分析顯示，模型的內部一致性較低，專家經驗與評價無明顯相關。研究指出，這些AI模型雖能提供基本資訊，但未能解決小兒腎臟科的特定挑戰，強調專業訓練和人類監督的重要性。 PubMed DOI

Preliminary evaluation of ChatGPT model iterations in emergency department diagnostics.
急診科診斷中 ChatGPT 模型迭代的初步評估。 Sci Rep 2025-03-27

這項回顧性研究評估了不同ChatGPT模型（如GPT-3.5、GPT-4等）在預測急診病人診斷的表現。研究針對30名病人，發現GPT-3.5在前三名鑑別診斷的準確率高達80%，但主要診斷的準確率僅47.8%。較新的模型如chatgpt-4o-latest在主要診斷的準確率提升至60%。要求模型提供推理過程也有助於改善表現。不過，所有模型在處理非典型案例時仍面臨挑戰，顯示其在急診環境中的應用限制。 PubMed DOI

Paediatric rare diseases: Can large language models assist off-label prescribing?
兒科罕見疾病：大型語言模型能協助非適應症用藥處方嗎？ Br J Clin Pharmacol 2025-07-16

這項研究比較四種大型語言模型（LLM）在協助罕見兒童疾病藥物超適應症資訊檢索的表現，發現GPT-4o表現最好，優於Scopus AI。雖然有時LLM給的參考文獻品質甚至比人類還高，但結果會因查詢內容不同而有落差。LLM能加快資訊搜尋，但還是需要專業人員審核，確保正確性。 PubMed DOI

Diagnostic efficacy of large language models in the pediatric emergency department: a pilot study.
大型語言模型於兒科急診部門的診斷效能：初步研究 Front Digit Health 2025-07-16

這項研究發現，ChatGPT-4o 在小兒急診診斷上表現比醫師還好，甚至連複雜案例也能大多答對。先進的聊天機器人有潛力協助醫師處理急診，但應該當作輔助工具，不能取代醫師，且需訂出明確的 AI 與醫師合作流程。 PubMed DOI

原始文章

站上相關主題文章列表