這項研究針對醫療領域的大型語言模型(LLMs)開發了一個全面的評估框架,旨在評估其效能、安全性和倫理合規性。研究採用多準則決策方法(MCDM)及模糊加權零不一致性(FWZIC)來處理醫療決策中的不確定性,並使用多屬性理想-現實比較分析(MAIRCA)來評估不同的醫療LLMs。結果顯示,「醫療關係提取」的重要性略高於「臨床概念提取」,「GatorTron S 10B」表現最佳,而「GatorTron 90B」則最低。這項研究對醫療實務具有重要意義,能幫助專業人士做出明智的LLM採用決策。
PubMed
DOI