CARDBiomedBench: A Benchmark for Evaluating Large Language Model Performance in Biomedical Research.
CARDBiomedBench:評估大型語言模型在生物醫學研究中表現的基準。
bioRxiv 2025-01-27
A comprehensive evaluation of large Language models on benchmark biomedical text processing tasks.
大型語言模型在基準生物醫學文本處理任務上的全面評估。
Comput Biol Med 2024-03-21
Data Set and Benchmark (MedGPTEval) to Evaluate Responses From Large Language Models in Medicine: Evaluation Development and Validation.
醫學領域中用於評估大型語言模型回應的資料集和基準(MedGPTEval):評估開發和驗證。
JMIR Med Inform 2024-07-02
MedFrenchmark, a Small Set for Benchmarking Generative LLMs in Medical French.
MedFrenchmark:一個用於基準測試醫學法語生成大型語言模型的小型數據集。
Stud Health Technol Inform 2024-08-23
The role of large language models in self-care: a study and benchmark on medicines and supplement guidance accuracy.
大型語言模型在自我照護中的角色:藥物和補充品指導準確性的研究與基準。
Int J Clin Pharm 2024-12-07
LLM-CGM: A Benchmark for Large Language Model-Enabled Querying of Continuous Glucose Monitoring Data for Conversational Diabetes Management.
LLM-CGM:一個用於大型語言模型驅動的持續血糖監測數據查詢的基準,以促進對話式糖尿病管理。
Pac Symp Biocomput 2024-12-13
Comparative evaluation and performance of large language models on expert level critical care questions: a benchmark study.
大型語言模型在專家級重症護理問題上的比較評估與表現:基準研究。
Crit Care 2025-02-10
這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。
PubMedDOI
The Development Landscape of Large Language Models for Biomedical Applications.
生物醫學應用的大型語言模型發展現狀。
Annu Rev Biomed Data Sci 2025-04-01
Benchmarking large language models for biomedical natural language processing applications and recommendations.
大型語言模型在生物醫學自然語言處理應用中的基準測試與建議。
Nat Commun 2025-04-05