Evaluation and mitigation of the limitations of large language models in clinical decision-making.
評估和緩解大型語言模型在臨床決策中的限制。 Nat Med 2024-07-04

大型語言模型(LLMs)在臨床決策中或許有好處，但目前還不適合實際醫療使用。一項研究指出，LLMs在真實病例中無法正確診斷、無法遵循指引、難以解釋檢驗結果，且難以整合到臨床流程中，可能危害患者健康。需要更多研究以改進LLMs在臨床決策的應用。 PubMed DOI

A framework for human evaluation of large language models in healthcare derived from literature review.
從文獻回顧中衍生的醫療領域大型語言模型人類評估框架。 NPJ Digit Med 2024-09-27

這項研究強調人類評估在醫療大型語言模型（LLMs）中的重要性，回顧了各醫學專科的評估方法，特別關注評估維度、樣本大小、評估者選擇和統計分析。對142項研究的文獻回顧顯示，現行實踐在可靠性和適用性上有明顯缺口。為了解決這些問題，作者提出了QUEST框架，包含規劃、實施與裁定、評分與審查三個階段，並圍繞五個關鍵評估原則，旨在提升LLMs在醫療環境中的有效性與安全性。 PubMed DOI

Testing and Evaluation of Health Care Applications of Large Language Models: A Systematic Review.
大型語言模型在健康照護應用中的測試與評估：系統性回顧。 JAMA 2024-10-15

大型語言模型（LLMs）在醫療領域有潛力，但目前的評估方法無法有效識別其最佳用途。針對2022年至2024年間的研究進行系統性回顧，發現519項研究中僅5%使用真實病人數據。主要醫療任務集中在醫學知識和診斷，行政任務則較少。大多數研究專注於問答任務，準確性是主要評估維度，但公平性和偏見等問題卻被忽略。未來應標準化評估指標，納入臨床數據，並擴展至更多任務和專科。 PubMed DOI

Analyzing evaluation methods for large language models in the medical field: a scoping review.
分析醫療領域大型語言模型評估方法：範疇回顧。 BMC Med Inform Decis Mak 2024-11-29

這項研究回顧了大型語言模型（LLMs）在醫療領域的評估，指出目前缺乏明確的評估框架。研究分析了142篇2023年內發表的文章，資料來自PubMed、Embase和MEDLINE。結果顯示，LLM的評估主要分為測試考試和醫療專業人員的評估，部分研究則結合兩者。大多數評估問題數量不超過100題，且有不少使用重複測量和額外分析。研究強調未來需更具結構化的方法論，以提升LLM在醫療應用中的表現。 PubMed DOI

Developing and Evaluating Large Language Model-Generated Emergency Medicine Handoff Notes.
開發與評估大型語言模型生成的急診醫學交接筆記。 JAMA Netw Open 2024-12-03

這項研究探討大型語言模型（LLM）生成的急診醫學交接筆記，針對從急診轉入住院的病人進行。研究在紐約長老會/威爾康奈爾醫學中心進行，分析了1,600份病人紀錄。結果顯示，LLM生成的筆記在詞彙和細節上優於醫生撰寫的筆記，但在實用性和病人安全性方面略遜於醫生的評估。這強調了在臨床使用LLM時，醫生參與的重要性，並提供了評估病人安全的框架。 PubMed DOI

An evaluation framework for clinical use of large language models in patient interaction tasks.
大型語言模型在病患互動任務臨床應用的評估框架。 Nat Med 2025-01-03

將大型語言模型（LLMs）應用於臨床診斷，能提升醫生與病患的互動，但其實際使用的準備程度尚未充分評估。本文提出了醫學測試的對話推理評估框架（CRAFT-MD），透過自然對話來評估臨床LLMs的表現。研究發現，像GPT-4等模型在臨床對話推理和診斷準確性上存在顯著限制。未來建議進行真實的醫生-病患互動及徹底的病史採集，以確保這些模型能有效且倫理地融入醫療實踐。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Application of unified health large language model evaluation framework to In-Basket message replies: bridging qualitative and quantitative assessments.
統一健康大型語言模型評估框架在 In-Basket 訊息回覆中的應用：橋接定性與定量評估。 J Am Med Inform Assoc 2025-03-10

大型語言模型（LLMs）在醫療領域的應用日益增多，但目前的評估方法主要依賴人類的主觀評價，這不僅耗時，還容易受到偏見影響。為了解決這個問題，我們提出了一個結合定性與定量評估的統一框架，能夠更客觀地評估LLMs的表現。我們應用此框架於Epic In-Basket功能的評估，發現AI生成的回覆雖然流暢，但在連貫性和完整性上仍有不足。這顯示出量化指標能有效減少人力投入，提升評估的可擴展性。總之，我們的框架有助於提升LLMs在醫療領域的評估可靠性。 PubMed DOI

Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型（LLM）作為評審自動化評估醫療領域 AI 文字生成 medRxiv 2025-05-02

本研究提出用大型語言模型（LLM）自動評估AI生成的電子健康紀錄（EHR）摘要，效果和專家評分高度一致，尤其是像GPT-3這類模型。這種方法省時又可靠，有助於確保醫療AI摘要的品質與安全性，適合大規模應用。 PubMed DOI

Assessment and Integration of Large Language Models for Automated Electronic Health Record Documentation in Emergency Medical Services.
大型語言模型於緊急醫療服務自動化電子病歷紀錄之評估與整合 J Med Syst 2025-05-17

這項研究用多個大型語言模型（像是GPT-4、Claude 3.5等）來自動化產生EMS對話的電子病歷，結果比單一模型更準確，F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔，但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估，展現未來應用潛力。 PubMed DOI

原始文章

站上相關主題文章列表