An evaluation framework for clinical use of large language models in patient interaction tasks.
大型語言模型在病患互動任務臨床應用的評估框架。 Nat Med 2025-01-03

將大型語言模型（LLMs）應用於臨床診斷，能提升醫生與病患的互動，但其實際使用的準備程度尚未充分評估。本文提出了醫學測試的對話推理評估框架（CRAFT-MD），透過自然對話來評估臨床LLMs的表現。研究發現，像GPT-4等模型在臨床對話推理和診斷準確性上存在顯著限制。未來建議進行真實的醫生-病患互動及徹底的病史採集，以確保這些模型能有效且倫理地融入醫療實踐。 PubMed DOI

Artificial Intelligence Scribe and Large Language Model Technology in Healthcare Documentation: Advantages, Limitations, and Recommendations.
人工智慧書記與大型語言模型技術在醫療文件中的應用：優勢、限制與建議。 Plast Reconstr Surg Glob Open 2025-01-17

人工智慧（AI）在醫療領域的應用逐漸普及，透過大型語言模型（如GPT-4）和自動語音識別技術，能有效提升醫療文檔的效率，讓醫生更專注於病人護理。然而，AI生成的內容需謹慎校對，因為可能出現錯誤或不準確的資訊。此外，隨著醫療數據的增加，患者隱私和算法偏見的風險也上升。因此，開發者應加強監管，遵循倫理指導，並改善輸出準確性。 PubMed DOI

Application of unified health large language model evaluation framework to In-Basket message replies: bridging qualitative and quantitative assessments.
統一健康大型語言模型評估框架在 In-Basket 訊息回覆中的應用：橋接定性與定量評估。 J Am Med Inform Assoc 2025-03-10

大型語言模型（LLMs）在醫療領域的應用日益增多，但目前的評估方法主要依賴人類的主觀評價，這不僅耗時，還容易受到偏見影響。為了解決這個問題，我們提出了一個結合定性與定量評估的統一框架，能夠更客觀地評估LLMs的表現。我們應用此框架於Epic In-Basket功能的評估，發現AI生成的回覆雖然流暢，但在連貫性和完整性上仍有不足。這顯示出量化指標能有效減少人力投入，提升評估的可擴展性。總之，我們的框架有助於提升LLMs在醫療領域的評估可靠性。 PubMed DOI

AI-driven report-generation tools in mental healthcare: A review of commercial tools.
精神健康護理中的AI驅動報告生成工具：商業工具的回顧。 Gen Hosp Psychiatry 2025-03-15

將大型語言模型（LLMs）整合進心理健康臨床護理中撰寫筆記的趨勢逐漸上升。我們的研究目的是建立評估LLMs在心理健康電子健康紀錄（EHRs）中使用的標準，重點在於特徵、安全性和倫理考量。雖然供應商提供了數據保護和病人功能等資訊，但對於LLMs的訓練方法和偏見修正等關鍵細節卻缺乏透明度，這引發了倫理上的擔憂。雖然LLMs有助於減輕文書負擔，但仍需改善透明度和標準化，以確保其安全性和臨床護理的高標準。 PubMed DOI

Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型（LLM）作為評審自動化評估醫療領域 AI 文字生成 medRxiv 2025-05-02

本研究提出用大型語言模型（LLM）自動評估AI生成的電子健康紀錄（EHR）摘要，效果和專家評分高度一致，尤其是像GPT-3這類模型。這種方法省時又可靠，有助於確保醫療AI摘要的品質與安全性，適合大規模應用。 PubMed DOI

Development and validation of the provider documentation summarization quality instrument for large language models.
大型語言模型醫療提供者文件摘要品質評估工具的開發與驗證 J Am Med Inform Assoc 2025-05-05

PDSQI-9 是專門評估大型語言模型（LLM）從電子病歷產生臨床摘要品質的工具。研究證實它有高信賴度和一致性，能有效分辨摘要好壞。PDSQI-9 涵蓋組織、清晰度、正確性和實用性等重點，是評估 LLM 產生臨床文件的有力工具，有助於 LLM 更安全地應用在醫療流程中。 PubMed DOI

A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation.
用於醫學文本摘要之大型語言模型（LLMs）臨床安全性與幻覺率評估框架 NPJ Digit Med 2025-05-13

這項研究提出一套新框架，能提升大型語言模型（LLM）生成臨床紀錄的準確性與安全性。透過錯誤分類、反覆評估、臨床安全性檢查和CREOLA介面，分析近1.3萬句臨床標註句子後，發現幻覺率1.47%、遺漏率3.45%。經優化後，重大錯誤率甚至比人類醫師還低，顯示這方法有助於提升LLM臨床應用的安全性。 PubMed DOI

Assessment and Integration of Large Language Models for Automated Electronic Health Record Documentation in Emergency Medical Services.
大型語言模型於緊急醫療服務自動化電子病歷紀錄之評估與整合 J Med Syst 2025-05-17

這項研究用多個大型語言模型（像是GPT-4、Claude 3.5等）來自動化產生EMS對話的電子病歷，結果比單一模型更準確，F1分數最高到0.81。專家也認為這系統能減輕紀錄負擔，但偶爾還是會誤解醫療情境。這是首次針對急診醫療紀錄自動化做系統性評估，展現未來應用潛力。 PubMed DOI

Ambient technology in epilepsy clinical practice.
癲癇臨床實務中的環境感知技術 Epilepsia Open 2025-05-22

大型語言模型的AI（像環境智慧）已用在神經科學領域，能自動化臨床紀錄，減輕醫師負擔、提升照護品質。但也有錯誤、偏見等風險，還可能讓醫護產生新型職業倦怠，特別是在癲癇照護這種需精確紀錄的領域。要安全有效運用，還是需要人類監督、持續研究、法規和多方合作。 PubMed DOI

Evaluating the Application of Artificial Intelligence and Ambient Listening to Generate Medical Notes in Vitreoretinal Clinic Encounters.
人工智慧與環境聆聽技術於玻璃體視網膜門診紀錄生成之應用評估 Clin Ophthalmol 2025-06-10

這項研究比較了 ChatGPT 3.5 和 Google Gemini 1.0 Pro 在生成視網膜門診紀錄的表現。結果顯示，ChatGPT 3.5 不論在轉錄準確度還是紀錄品質都優於 Gemini。不過，兩者偶爾還是會出現資訊錯誤。整體來說，這類 AI 有助減輕醫師紀錄負擔，但還需要再優化才能更安心使用。 PubMed DOI

原始文章

站上相關主題文章列表