Performance Assessment of Large Language Models in Medical Consultation: A Comparative Study.
大型語言模型在醫療諮詢中的表現評估：一項比較研究。 JMIR Med Inform 2025-01-07

這項研究探討生成式人工智慧，特別是大型語言模型（LLMs）在醫療上解決憂鬱症問題的效果。透過分析BioGPT、PMC-Llama、GPT-3.5和Llama2等模型的回應，並使用PubMedQA和QuoraQA數據集，結果顯示最新的模型，尤其是GPT-3.5和Llama2，在生成醫療回應方面表現優異。研究指出，升級一般的LLMs可能比專門微調的模型更能產生生物醫學知識，目的是提升AI驅動的醫療諮詢系統，特別是在心理健康領域的應用。 PubMed DOI

Evaluating Large Language Model Performance to Support the Diagnosis and Management of Patients with Primary Immune Disorders.
評估大型語言模型在支持原發性免疫疾病患者診斷和管理中的表現。 J Allergy Clin Immunol 2025-02-16

生成式人工智慧（GAI）在醫療領域有顯著進展，但對於罕見疾病如原發性免疫疾病（PI）的輔助效果仍待探討。本研究評估了六種大型語言模型（LLMs）在提供PI臨床指導的表現。結果顯示，GPT-4o、Llama-3.1-70B-Instruct和Mistral-Large-Instruct-2407的診斷準確率超過88%，其中GPT-4o以96.2%領先。其他模型表現較差，準確率約60%或更低。雖然LLMs在PI診斷上顯示潛力，但仍需改進以提升臨床實用性。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

Evaluating Large Language Models on Aerospace Medicine Principles.
大型語言模型在航太醫學原則上的評估 Wilderness Environ Med 2025-04-28

這項研究比較了ChatGPT-4、Google Gemini Advanced和自訂RAG模型在航太醫學知識與臨床推理的表現。RAG表現最好，但三者都有知識缺口和不穩定，臨床應用有風險。雖然LLM有潛力協助太空醫療，但準確性和可靠性還需加強，才能安全使用。 PubMed DOI

Assessing large language model performance related to aging in genetic conditions.
與遺傳性疾病老化相關之大型語言模型表現的評估 NPJ Aging 2025-05-03

研究發現，Llama-2-70b-chat 和 GPT-3.5 能生成符合年齡、合理的遺傳疾病病例描述和醫病對話，但治療計畫常常不完整或有誤。這顯示大型語言模型在臨床決策應用上，還有不少限制和改進空間。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Enhancing the Readability of Online Patient Education Materials Using Large Language Models: Cross-Sectional Study.
利用大型語言模型提升線上病患衛教資料可讀性：橫斷面研究 J Med Internet Res 2025-06-04

這項研究發現，ChatGPT、Gemini 和 Claude 都能把線上病患衛教資料簡化到更容易閱讀的程度，字數也變少，且正確性和易懂性大致良好。不過，Gemini 和 Claude 偶爾會有錯誤，所以還是需要人工審查。未來建議針對更進階或專門醫療的模型再做研究。 PubMed DOI

Evaluation of performance of generative large language models for stroke care.
生成式大型語言模型於中風照護表現之評估 NPJ Digit Med 2025-07-29

這項研究比較GPT、Claude和Gemini三款AI在中風照護的表現，發現它們在正確性、同理心等方面都不夠穩定，沒有一款能全面達到臨床標準。不同提示方法各有優缺點，但整體來說，現階段AI還無法完全勝任中風照護需求。 PubMed DOI

原始文章

站上相關主題文章列表