An evaluation framework for clinical use of large language models in patient interaction tasks.
大型語言模型在病患互動任務臨床應用的評估框架。 Nat Med 2025-01-03

將大型語言模型（LLMs）應用於臨床診斷，能提升醫生與病患的互動，但其實際使用的準備程度尚未充分評估。本文提出了醫學測試的對話推理評估框架（CRAFT-MD），透過自然對話來評估臨床LLMs的表現。研究發現，像GPT-4等模型在臨床對話推理和診斷準確性上存在顯著限制。未來建議進行真實的醫生-病患互動及徹底的病史採集，以確保這些模型能有效且倫理地融入醫療實踐。 PubMed DOI

Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Towards accurate differential diagnosis with large language models.
利用大型語言模型進行準確的鑑別診斷。 Nature 2025-04-09

這項研究介紹了Articulate Medical Intelligence Explorer (AMIE)，一個大型語言模型，旨在提升醫療診斷推理。研究評估AMIE在生成鑑別診斷的有效性，並與傳統方法比較。二十位臨床醫師針對302個複雜案例進行評估，結果顯示AMIE的準確率達59.1%，遠超過未經協助的醫師33.6%。使用AMIE的醫師準確率為51.7%，也高於僅依賴傳統資源的醫師。這些結果顯示AMIE有潛力提升診斷準確性，並強調在真實環境中進一步評估的必要性。 PubMed DOI

RDguru: An Intelligent Agent for Rare Diseases.
RDguru：罕見疾病的智慧型代理人 AMIA Annu Symp Proc 2025-05-26

這項研究推出 RDguru 智慧診斷系統，專為罕見疾病設計，結合 GPT-4、醫學知識和診斷工具。實測 238 個案例，RDguru 前 10 答案有 69.1% 命中正確診斷，前 5 有 63.6%，第一個建議正確率為 41.9%，能有效協助臨床決策。 PubMed

Dedicated AI Expert System vs Generative AI With Large Language Model for Clinical Diagnoses.
專用 AI 專家系統與大型語言模型生成式 AI 在臨床診斷上的比較 JAMA Netw Open 2025-05-29

這項研究比較 ChatGPT-4、Gemini 1.5 和傳統診斷系統 DXplain，在36個臨床案例中測試有無檢驗數據的表現。沒檢驗數據時，DXplain雖然正確診斷次數較多，但差異不顯著。有檢驗數據後，三者表現都提升。研究建議結合 LLMs 的語言理解和 DDSS 的推理能力，有望提升診斷支援效果。 PubMed DOI

Comparative analysis of large language models in clinical diagnosis: performance evaluation across common and complex medical cases.
大型語言模型於臨床診斷的比較分析：於常見與複雜醫療案例中的表現評估 JAMIA Open 2025-06-13

這項研究比較了多款主流大型語言模型（如Claude、GPT、Gemini）在臨床診斷上的表現。結果顯示，這些AI在常見病例的診斷準確率都超過九成，Claude 3.7甚至有滿分表現；在複雜案例中，Claude 3.7也勝出。小型模型在簡單情境下表現也不差。研究強調，未來應把AI工具實際整合進臨床與醫學教育，提升照護品質。 PubMed DOI

Human-AI collectives most accurately diagnose clinical vignettes.
Human-AI 協作團隊最能準確診斷臨床病歷摘要 Proc Natl Acad Sci U S A 2025-06-13

單靠大型語言模型（LLMs）做高風險決策有風險，因為它們會出現幻覺和偏誤。這項研究提出結合醫師和LLM的混合系統，分析四萬多個診斷案例後發現，醫師和LLM合作比單獨使用任何一方都更準確，因為他們各有不同的優缺點。這種混合方式能提升醫療診斷的準確率。 PubMed DOI

原始文章

站上相關主題文章列表