The diagnostic and triage accuracy of the GPT-3 artificial intelligence model: an observational study.
GPT-3 人工智慧模型的診斷與分流準確性：一項觀察性研究。 Lancet Digit Health 2024-07-26

這項研究評估了AI語言模型GPT-3在診斷和分診的表現，並與一般人和醫生進行比較，使用了48個醫療案例。結果顯示，GPT-3在88%的案例中準確診斷，優於一般人（54%），但低於醫生（96%）。在分診準確性方面，GPT-3達70%，接近一般人（74%），但仍低於醫生（91%）。雖然GPT-3對預測的信心合理，但在急迫案例中準確性下降，偶爾會將緊急案例降為次要。總體而言，GPT-3的診斷表現不錯，但分診效果仍不如醫生。 PubMed DOI

The RepVig framework for designing use-case specific representative vignettes and evaluating triage accuracy of laypeople and symptom assessment applications.
RepVig 框架：設計特定使用案例的代表性小插圖並評估外行人和症狀評估應用的分診準確性。 Sci Rep 2024-12-23

這項研究指出，使用臨床醫師撰寫的標準案例小品來評估症狀評估應用程式（SAAs）存在限制。研究提出了一種新方法，稱為RepVig框架，透過真實的線上病患互動來抽取案例小品，更能反映實際的自我分診情況。結果顯示，這些具代表性的案例小品能提升準確性與安全性，並且在一般民眾及大型語言模型（如GPT-4和Claude）中，過度分診的傾向也較高。研究建議應用這種更具情境相關性的抽樣方法來評估SAAs。 PubMed DOI

"Comparative analysis of large language models against the NHS 111 online triaging for emergency ophthalmology".
「大型語言模型與 NHS 111 線上急診眼科分診的比較分析」 Eye (Lond) 2025-01-21

這項研究評估了多種大型語言模型（LLMs）在處理眼科緊急情況的表現，並與英國國民健康服務（NHS）111的系統進行比較。研究涵蓋21個緊急情境問題，測試的模型包括ChatGPT-3.5、Google Bard、Bing Chat和ChatGPT-4.0。結果顯示，93%的LLM回應至少得分為「良好」，顯示它們提供的資訊正確且無重大錯誤。整體來看，這些模型在提供即時資訊和指導方面，顯示出作為有效工具的潛力，能提升患者護理及醫療可及性。 PubMed DOI

Current applications and challenges in large language models for patient care: a systematic review.
大型語言模型在病患照護中的現行應用與挑戰：系統性回顧。 Commun Med (Lond) 2025-01-21

大型語言模型（LLMs）在臨床實踐中有潛力提升病人教育與賦權，提供更個人化的醫療服務。然而，目前對其在病人照護中的應用資訊仍不夠完整。本系統性回顧分析了2022至2023年間的89項相關研究，主要集中於GPT-3.5和GPT-4，應用於回答醫療問題、生成病人資訊等。研究指出設計和輸出方面的限制，包括缺乏針對醫療的優化及數據透明度等問題。此回顧為LLMs在醫療環境中的應用與評估提供了基礎框架。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

Unveiling the Potential of Large Language Models in Transforming Chronic Disease Management: Mixed Methods Systematic Review.
揭示大型語言模型在轉變慢性疾病管理中的潛力：混合方法系統性回顧 J Med Internet Res 2025-04-16

慢性病是全球主要死因，LLMs（像ChatGPT）在管理慢性病上有潛力，能提供準確、易懂的健康建議，幫助病人自我管理和獲得支持。專業型LLMs表現更好，但目前證據有限，還有隱私、語言和診斷等挑戰。臨床應用還在初期，未來需加強資料安全、專業化和與穿戴裝置整合。 PubMed DOI

Comparing Diagnostic Accuracy of Clinical Professionals and Large Language Models: Systematic Review and Meta-Analysis.
臨床專業人員與大型語言模型診斷準確度之比較：系統性回顧與統合分析 JMIR Med Inform 2025-04-25

這篇系統性回顧分析30項比較LLM和醫師臨床診斷的研究，發現LLM診斷準確率雖不錯，但多數研究有偏誤，且準確度還不及醫師。不過，若小心運用，未來LLM有望成為醫療智慧助理。 PubMed DOI

Accuracy of Large Language Models When Answering Clinical Research Questions: Systematic Review and Network Meta-Analysis.
大型語言模型在回答臨床研究問題時的準確性：系統性回顧與網絡統合分析 J Med Internet Res 2025-04-30

這篇回顧分析168篇研究，發現ChatGPT-4o在選擇題最準，ChatGPT-4開放式問題表現最好，但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出，Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

A comparative analysis of large language models versus traditional information extraction methods for real-world evidence of patient symptomatology in acute and post-acute sequelae of SARS-CoV-2.
SARS-CoV-2 急性及後急性症狀群患者症狀學真實世界證據中，大型語言模型與傳統資訊擷取方法之比較分析 PLoS One 2025-05-15

這項研究發現，規則式系統 BioMedICUS 在從臨床紀錄擷取 COVID-19 症狀的準確度和族群公平性上，都比大型語言模型（LLaMA2-13B、LLaMA3-8B）表現更好。不過，LLMs 在某些情境下也有優勢。整體來說，LLMs 在公平性和泛化能力上還有待加強，未來需提升訓練資料和標註品質。 PubMed DOI

原始文章

站上相關主題文章列表