The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study.
GPT-3 人工智慧模型的診斷與分流準確性：一項觀察性研究。 Lancet Digit Health 2024-07-26

這項研究評估了AI語言模型GPT-3在診斷和分診的表現，並與一般人和醫生進行比較，使用了48個醫療案例。結果顯示，GPT-3在88%的案例中準確診斷，優於一般人（54%），但低於醫生（96%）。在分診準確性方面，GPT-3達70%，接近一般人（74%），但仍低於醫生（91%）。雖然GPT-3對預測的信心合理，但在急迫案例中準確性下降，偶爾會將緊急案例降為次要。總體而言，GPT-3的診斷表現不錯，但分診效果仍不如醫生。 PubMed DOI

Transforming emergency triage: A preliminary, scenario-based cross-sectional study comparing artificial intelligence models and clinical expertise for enhanced accuracy.
轉變緊急分診：一項初步的情境基礎橫斷面研究，比較人工智慧模型與臨床專業知識以提高準確性。 Bratisl Lek Listy 2024-11-02

這項研究探討了緊急情境中的分診決策，對比醫療專業人員與人工智慧（AI）模型的表現。研究發現，醫療人員的準確率（30.7%）高於AI模型（25.5%），顯示人類專業知識在分診中仍然更可靠。研究涉及50個虛擬病人情境，參與者使用土耳其衛生部的顏色編碼系統進行分類。雖然AI能快速分析數據，但在此情境下表現不如人類。作者建議結合AI與人類專業知識，以提升分診系統的效率。 PubMed DOI

Integrating retrieval-augmented generation for enhanced personalized physician recommendations in web-based medical services: model development study.
整合檢索增強生成以提升網路醫療服務中的個性化醫生推薦：模型開發研究。 Front Public Health 2025-02-13

這項研究開發了一個基於檢索增強生成的醫生推薦模型（RAGPR），旨在提升網路醫療服務中的個人化推薦。研究針對排班人員手動分診的限制，使用廈門大學第一附屬醫院的646,383份諮詢紀錄進行評估。結果顯示，SBERT和OpenAI的表現優異，F1分數分別達到95%和96%。在大型語言模型中，GPT-4o表現最佳，F1分數為95%。整體而言，RAGPR模型在提升醫療服務的準確性和個人化方面展現良好潛力，提供可擴展的病患與醫生匹配解決方案。 PubMed DOI

Accuracy of online symptom assessment applications, large language models, and laypeople for self-triage decisions.
線上症狀評估應用程式、大型語言模型及一般民眾在自我分診決策中的準確性。 NPJ Digit Med 2025-03-26

這項系統性回顧比較了症狀評估應用程式（SAAs）和大型語言模型（LLMs）在自我分診準確性上的表現。從1549項研究中篩選出19項進行分析。結果顯示，SAAs的準確性中等但變異性大（11.5-90.0%），LLMs的準確性也中等（57.8-76.0%），變異性較低；一般人的準確性同樣中等（47.3-62.4%）。結論是，SAAs和LLMs不應被普遍推薦或反對，應根據具體情境和使用者特徵來評估其有效性。 PubMed DOI

Retrieval augmented generation for 10 large language models and its generalizability in assessing medical fitness.
10 種大型語言模型的檢索增強生成及其在評估醫療適應性中的普遍性。 NPJ Digit Med 2025-04-04

這項研究探討了基於GPT-4的檢索增強生成（RAG）模型在術前評估中的有效性。研究測試了十個大型語言模型，生成超過3,200個回應，並與近450個人類答案進行比較。結果顯示，使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%，明顯高於人類的86.6%，且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI

Detecting emergencies in patient portal messages using large language models and knowledge graph-based retrieval-augmented generation.
使用大型語言模型和基於知識圖譜的檢索增強生成技術來檢測病人門戶消息中的緊急情況。 J Am Med Inform Assoc 2025-04-12

這項研究探討如何將大型語言模型（LLMs）與知識圖譜結合，來有效篩選可能的緊急病人訊息，目的是提升病人安全，促使病人尋求即時護理。研究分析了1,020條來自范德堡大學醫療中心的訊息，並開發了四種緊急篩選模型。結果顯示，使用知識圖譜進行全球檢索的模型表現最佳，準確率達0.99，敏感性0.98，特異性0.99，顯著優於其他模型。研究建議進一步擴展知識圖譜並評估其對病人結果的影響。 PubMed DOI

Evaluating large language model workflows in clinical decision support for triage and referral and diagnosis.
臨床決策支援中大型語言模型於分診、轉診與診斷流程的評估 NPJ Digit Med 2025-05-09

**重點摘要：** 這項研究評估了多個大型語言模型（LLMs）以及一個檢索增強生成（RAG）流程，並以2,000個醫療案例作為測試。結果顯示，LLMs能夠協助病人和臨床醫師，像是提供可能的診斷、建議合適的專科醫師，以及評估緊急程度，有機會提升醫療決策品質和醫療服務的效率。 PubMed DOI

A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation.
用於醫學文本摘要之大型語言模型（LLMs）臨床安全性與幻覺率評估框架 NPJ Digit Med 2025-05-13

這項研究提出一套新框架，能提升大型語言模型（LLM）生成臨床紀錄的準確性與安全性。透過錯誤分類、反覆評估、臨床安全性檢查和CREOLA介面，分析近1.3萬句臨床標註句子後，發現幻覺率1.47%、遺漏率3.45%。經優化後，重大錯誤率甚至比人類醫師還低，顯示這方法有助於提升LLM臨床應用的安全性。 PubMed DOI

Patient Triage and Guidance in Emergency Departments Using Large Language Models: Multimetric Study.
利用大型語言模型於急診部門進行病患分流與指導：多指標研究 J Med Internet Res 2025-05-15

這項研究用模擬病人測試ChatGPT（GPT-4o和GPT-4-Turbo）在急診分級和門診指引的表現。經過優化後，GPT-4-Turbo用MEWS分級達到100%準確率，優於GPT-4o（96.2%）；GPT-4o在門診科別選擇也有92.6%高準確率，且情感回應更好。結果顯示，經設計的ChatGPT能有效協助急診分級與指引，但還需更多臨床驗證。 PubMed DOI

Human-AI collectives most accurately diagnose clinical vignettes.
Human-AI 協作團隊最能準確診斷臨床病歷摘要 Proc Natl Acad Sci U S A 2025-06-13

單靠大型語言模型（LLMs）做高風險決策有風險，因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統，分析四萬多個診斷案例後發現，醫師和LLM合作比單獨使用任何一方都更準確，因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI

原始文章

站上相關主題文章列表