Evaluation of the Performance of Three Large Language Models in Clinical Decision Support: A Comparative Study Based on Actual Cases.
三種大型語言模型在臨床決策支持中的表現評估:基於實際案例的比較研究。
J Med Syst 2025-02-13
Evaluating Large Language Models in Cardiovascular Antithrombotic Care: Performance, Accuracy, and Implications for Clinical Practice.
心血管抗血栓治療中大型語言模型的評估:表現、準確性及其對臨床實務的影響
Can J Cardiol 2025-04-16
這項研究發現,Claude 3 Opus 在心血管抗凝治療案例的準確度勝過其他大型語言模型和臨床醫師,正確率達85%。部分LLMs表現媲美甚至超越有經驗醫師,但免費版模型有時會給出不佳或不安全的建議。所有LLMs在生活型態和飲食建議上表現穩定。研究提醒,醫療決策時應謹慎選用並驗證LLMs。
PubMedDOI
Evaluating Large Language Models on Aerospace Medicine Principles.
大型語言模型在航太醫學原則上的評估
Wilderness Environ Med 2025-04-28
The actual performance of large language models in providing liver cirrhosis-related information: A comparative study.
大型語言模型在提供肝硬化相關資訊時的實際表現:一項比較研究
Int J Med Inform 2025-05-07
Summarizing clinical evidence utilizing large language models for cancer treatments: a blinded comparative analysis.
利用大型語言模型總結癌症治療的臨床證據:一項盲態比較分析
Front Digit Health 2025-05-14
Evaluating performance of large language models for atrial fibrillation management using different prompting strategies and languages.
使用不同提示策略與語言評估大型語言模型於心房顫動管理的表現
Sci Rep 2025-05-30
Evaluating Large Language Models for Preoperative Patient Education in Superior Capsular Reconstruction: Comparative Study of Claude, GPT, and Gemini.
在上方肩關節囊重建術(Superior Capsular Reconstruction)術前病患衛教中評估大型語言模型:Claude、GPT 與 Gemini 之比較研究
JMIR Perioper Med 2025-06-12
Synthetic Patient-Physician Conversations Simulated by Large Language Models: A Multi-Dimensional Evaluation.
由大型語言模型模擬的虛擬醫病對話:多面向評估
Sensors (Basel) 2025-07-30
這項研究比較四款主流大型語言模型在產生整形外科醫病對話的表現,結果顯示它們都能產生真實又實用的對話,平均分數都超過4.5分。雖然 Gemini Pro 2.5 和 Claude 3.7 Sonnet 表現稍好,但彼此間沒有明顯差異。這些模型適合用於醫學教育和研究,但還是要注意多元性和偏見的問題。
PubMedDOI