Humans Continue to Outperform Large Language Models in Complex Clinical Decision-Making: A Study with Medical Calculators.
人類在複雜臨床決策中持續超越大型語言模型:一項使用醫療計算器的研究。
ArXiv 2025-01-13
Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現:基準研究。
Crit Care 2025-02-10
這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。
PubMedDOI
A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。
BMC Med Inform Decis Mak 2025-03-07
A Review of Large Language Models in Medical Education, Clinical Decision Support, and Healthcare Administration.
大型語言模型在醫學教育、臨床決策支持和醫療管理中的綜述。
Healthcare (Basel) 2025-03-28