Evaluation of the Performance of Three Large Language Models in Clinical Decision Support: A Comparative Study Based on Actual Cases.
三種大型語言模型在臨床決策支持中的表現評估：基於實際案例的比較研究。 J Med Syst 2025-02-13

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示，Med-Go 的中位數得分為37.5，優於其他模型，而 Gemini 得分最低，為33.0，差異顯著（p < 0.001）。所有模型在鑑別診斷上表現較弱，但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練，以提升效能，並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

Large Language Models' Responses to Spinal Cord Injury: A Comparative Study of Performance.
大型語言模型對脊髓損傷的反應：性能的比較研究。 J Med Syst 2025-03-25

這項研究評估了四個大型語言模型（LLMs）在回答脊髓損傷相關問題的表現，包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示，Gemini的資訊品質最佳，但可讀性較低，需大學程度理解。ChatGPT在準確性上表現最佳，達83.8%的「良好」評級，超過其他模型。所有模型在全面性和自我修正能力上表現良好，特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

Evaluating Large Language Models in Cardiovascular Antithrombotic Care: Performance, Accuracy, and Implications for Clinical Practice.
心血管抗血栓治療中大型語言模型的評估：表現、準確性及其對臨床實務的影響 Can J Cardiol 2025-04-16

這項研究發現，Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師，正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師，但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒，醫療決策時應謹慎選用並驗證LLMs。 PubMed DOI

Evaluating Large Language Models on Aerospace Medicine Principles.
大型語言模型在航太醫學原則上的評估 Wilderness Environ Med 2025-04-28

這項研究比較了ChatGPT-4、Google Gemini Advanced和自訂RAG模型在航太醫學知識與臨床推理的表現。RAG表現最好，但三者都有知識缺口和不穩定，臨床應用有風險。雖然LLM有潛力協助太空醫療，但準確性和可靠性還需加強，才能安全使用。 PubMed DOI

Assessing large language model performance related to aging in genetic conditions.
與遺傳性疾病老化相關之大型語言模型表現的評估 NPJ Aging 2025-05-03

研究發現，Llama-2-70b-chat 和 GPT-3.5 能生成符合年齡、合理的遺傳疾病病例描述和醫病對話，但治療計畫常常不完整或有誤。這顯示大型語言模型在臨床決策應用上，還有不少限制和改進空間。 PubMed DOI

The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現：一項比較研究 Int J Med Inform 2025-05-07

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示，Gemini 的資訊品質最佳，ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力，但簡化複雜內容的能力不錯。整體來說，這些模型在提供肝硬化健康資訊上表現良好，但品質、可讀性和正確性仍有差異，未來還需進一步改進。 PubMed DOI

Summarizing clinical evidence utilizing large language models for cancer treatments: a blinded comparative analysis.
利用大型語言模型總結癌症治療的臨床證據：一項盲態比較分析 Front Digit Health 2025-05-14

四款大型語言模型用來產生多發性骨髓瘤和AL類澱粉沉積症治療的臨床摘要，Claude在正確性和完整性上表現最好，但沒有任何模型能完全正確。所有模型產出的內容都需要專家審查，目前還不適合單獨用於臨床摘要。 PubMed DOI

Evaluating performance of large language models for atrial fibrillation management using different prompting strategies and languages.
使用不同提示策略與語言評估大型語言模型於心房顫動管理的表現 Sci Rep 2025-05-30

這項研究針對2024年ESC心房顫動指引，測試三款大型語言模型（ChatGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro），發現它們在指引一致性上表現中等到高，Claude 3.5 Sonnet用思路鏈提問法時最好（60.3%）。中英文表現差不多，但LLM常建議比指引更積極的治療。建議臨床使用時多問幾次、用不同問法，並持續評估模型表現。 PubMed DOI

Evaluating Large Language Models for Preoperative Patient Education in Superior Capsular Reconstruction: Comparative Study of Claude, GPT, and Gemini.
在上方肩關節囊重建術（Superior Capsular Reconstruction）術前病患衛教中評估大型語言模型：Claude、GPT 與 Gemini 之比較研究 JMIR Perioper Med 2025-06-12

這項研究比較三款大型語言模型產生的SCR手術衛教資料，發現 Gemini-1.5-Pro 在教育品質和病患滿意度上表現最佳。不過，所有模型都沒附參考文獻，也沒提及其他治療選擇或不手術的風險，顯示臨床使用前還是需要專家把關。 PubMed DOI

Synthetic Patient-Physician Conversations Simulated by Large Language Models: A Multi-Dimensional Evaluation.
由大型語言模型模擬的虛擬醫病對話：多面向評估 Sensors (Basel) 2025-07-30

這項研究比較四款主流大型語言模型在產生整形外科醫病對話的表現，結果顯示它們都能產生真實又實用的對話，平均分數都超過4.5分。雖然 Gemini Pro 2.5 和 Claude 3.7 Sonnet 表現稍好，但彼此間沒有明顯差異。這些模型適合用於醫學教育和研究，但還是要注意多元性和偏見的問題。 PubMed DOI

原始文章

站上相關主題文章列表