Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。
Nat Commun 2025-04-05
A comprehensive evaluation of large Language models on benchmark biomedical text processing tasks.
大型語言模型在基準生物醫學文本處理任務上的全面評估。
Comput Biol Med 2024-03-21
Large language models for biomedicine: foundations, opportunities, challenges, and best practices.
生物醫學領域的大型語言模型:基礎、機會、挑戰和最佳實踐。
J Am Med Inform Assoc 2024-04-24
Large Language Models in Biomedical and Health Informatics: A Review with Bibliometric Analysis.
生物醫學與健康資訊學中的大型語言模型:文獻計量分析的回顧。
J Healthc Inform Res 2024-10-28
CARDBiomedBench: A Benchmark for Evaluating Large Language Model Performance in Biomedical Research.
CARDBiomedBench:評估大型語言模型在生物醫學研究中表現的基準。
bioRxiv 2025-01-27
Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現:基準研究。
Crit Care 2025-02-10
這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。
PubMedDOI
The Development Landscape of Large Language Models for Biomedical Applications.
生物醫學應用的大型語言模型發展現狀。
Annu Rev Biomed Data Sci 2025-04-01
Evaluating the effectiveness of biomedical fine-tuning for large language models on clinical tasks.
評估生物醫學微調對大型語言模型在臨床任務上的有效性。
J Am Med Inform Assoc 2025-04-07