Evaluation Framework of Large Language Models in Medical Documentation: Development and Usability Study.
大型語言模型在醫療文檔中的評估框架:開發與可用性研究。
J Med Internet Res 2024-11-20
這項研究旨在開發和驗證一個框架,以評估大型語言模型(LLM)生成的急診室記錄的準確性和臨床適用性。研究中,52名參與者使用HyperCLOVA X LLM創建了33份記錄,並採用雙重評估方法進行分析。臨床評估顯示評估者之間的可靠性高,而定量評估則識別出七種主要錯誤類型,其中無效生成錯誤最為常見。研究結果顯示該框架在臨床可接受性上具備潛力,為未來的研究和應用提供了方向。
PubMedDOI♡
站上相關主題文章列表
Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。
Nat Med 2024-07-04
A framework for human evaluation of large language models in healthcare derived from literature review.
從文獻回顧中衍生的醫療領域大型語言模型人類評估框架。
NPJ Digit Med 2024-09-27
Analyzing evaluation methods for large language models in the medical field: a scoping review.
分析醫療領域大型語言模型評估方法:範疇回顧。
BMC Med Inform Decis Mak 2024-11-29
Application of unified health large language model evaluation framework to In-Basket message replies: bridging qualitative and quantitative assessments.
統一健康大型語言模型評估框架在 In-Basket 訊息回覆中的應用:橋接定性與定量評估。
J Am Med Inform Assoc 2025-03-10
Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型(LLM)作為評審自動化評估醫療領域 AI 文字生成
medRxiv 2025-05-02
Assessment and Integration of Large Language Models for Automated Electronic Health Record Documentation in Emergency Medical Services.
大型語言模型於緊急醫療服務自動化電子病歷紀錄之評估與整合
J Med Syst 2025-05-17