Does one size fit all? Developing an evaluation strategy to assess large language models for patient safety event report analysis.
一刀切適用嗎?發展評估策略以評估大型語言模型在病人安全事件報告分析中的應用。
JAMIA Open 2024-11-11
Assessing the Efficacy of Large Language Models in Health Literacy: A Comprehensive Cross-Sectional Study.
評估大型語言模型在健康識字能力中的功效:一項全面的橫斷面研究。
Yale J Biol Med 2024-04-03
Integrating human expertise & automated methods for a dynamic and multi-parametric evaluation of large language models' feasibility in clinical decision-making.
將人類專業知識與自動化方法整合,以動態和多參數評估大型語言模型在臨床決策中的可行性。
Int J Med Inform 2024-05-29
Evaluating large language models on medical, lay language, and self-reported descriptions of genetic conditions.
評估大型語言模型在醫學、通俗語言和自我報告的遺傳疾病描述上的表現。
Am J Hum Genet 2024-08-15
A framework for human evaluation of large language models in healthcare derived from literature review.
從文獻回顧中衍生的醫療領域大型語言模型人類評估框架。
NPJ Digit Med 2024-09-27
Evaluation Framework of Large Language Models in Medical Documentation: Development and Usability Study.
大型語言模型在醫療文檔中的評估框架:開發與可用性研究。
J Med Internet Res 2024-11-20
這項研究旨在開發和驗證一個框架,以評估大型語言模型(LLM)生成的急診室記錄的準確性和臨床適用性。研究中,52名參與者使用HyperCLOVA X LLM創建了33份記錄,並採用雙重評估方法進行分析。臨床評估顯示評估者之間的可靠性高,而定量評估則識別出七種主要錯誤類型,其中無效生成錯誤最為常見。研究結果顯示該框架在臨床可接受性上具備潛力,為未來的研究和應用提供了方向。
PubMedDOI