Expert evaluation of large language models for clinical dialogue summarization.
大型語言模型在臨床對話摘要中的專家評估。 Sci Rep 2025-01-08

這項研究評估了多種大型語言模型在總結臨床對話的表現，並與人類生成的摘要進行比較。測試了五個模型，包括微調的變壓器模型和ChatGPT。結果顯示，微調模型在ROUGE分數上表現最佳，而ChatGPT在UniEval指標上表現優異，獲得最高分。臨床醫師的評估也偏向ChatGPT，顯示其摘要接近人類質量。研究指出ROUGE可能不適合臨床摘要評估，強調了大型語言模型在自動化臨床對話摘要的潛力，但仍需進一步研究以確認其可靠性。 PubMed DOI

Reader's digest version of scientific writing: comparative evaluation of summarization capacity between large language models and medical students in analyzing scientific writing in sleep medicine.
大型語言模型與醫學生在分析睡眠醫學科學寫作中的總結能力比較評估。 Front Artif Intell 2025-01-08

這項研究探討大型語言模型（LLMs）在總結睡眠醫學研究文章的效果，並與醫學生的摘要進行比較。19名醫學生評估了三個AI生成和三個人類生成的摘要，結果顯示兩者在可讀性和理解上無顯著差異（p值均大於0.2）。不過，研究也指出參與者人數少、可能的偏見及缺乏視覺輔助等限制。總體來看，AI生成的摘要與人類的相當，但仍需進一步研究以了解AI在醫學文獻總結中的優缺點。 PubMed DOI

Use of Open-Source Large Language Models for Automatic Synthesis of the Entire Imaging Medical Records of Patients: A Feasibility Study.
開源大型語言模型於自動整合病患完整影像醫療紀錄之應用：可行性研究 Tomography 2025-04-25

這項研究用三種開源AI模型自動摘要病人影像檢查紀錄，經專業醫師評估，發現AI摘要內容準確、實用又好上手。這樣能幫醫師快速掌握重點，省下查閱時間，資訊品質也沒打折，對放射科工作流程很有幫助。 PubMed DOI

Automating Evaluation of AI Text Generation in Healthcare with a Large Language Model (LLM)-as-a-Judge.
以大型語言模型（LLM）作為評審自動化評估醫療領域 AI 文字生成 medRxiv 2025-05-02

本研究提出用大型語言模型（LLM）自動評估AI生成的電子健康紀錄（EHR）摘要，效果和專家評分高度一致，尤其是像GPT-3這類模型。這種方法省時又可靠，有助於確保醫療AI摘要的品質與安全性，適合大規模應用。 PubMed DOI

Synthetic data distillation enables the extraction of clinical information at scale.
合成數據蒸餾技術實現大規模臨床資訊的萃取 NPJ Digit Med 2025-05-10

這項研究用大型LLM產生合成資料，來訓練較小的開源模型，讓它們在臨床紀錄資訊擷取上表現接近大型模型。8B參數的模型幾乎和70B一樣好，且只針對難題微調也有效。這方法能降低運算需求、保護隱私，適合在本地硬體上應用。 PubMed DOI

Automated generation of discharge summaries: leveraging large language models with clinical data.
自動生成出院摘要：結合臨床資料與大型語言模型 Sci Rep 2025-05-12

這項研究用開源大型語言模型（像LLaMA3）自動產生德文出院摘要，並請醫師評估品質。結果顯示，AI生成的摘要資訊算完整，但常漏掉重要細節或出現錯誤，尤其在複雜病例時更明顯。研究也發現資料集太小、資料不全和模型德文醫學詞彙不足是主要挑戰，建議未來要用更多資料和微調模型，才能提升表現。 PubMed DOI

Scientific Evidence for Clinical Text Summarization Using Large Language Models: Scoping Review.
使用大型語言模型進行臨床文本摘要的科學實證：範疇性回顧 J Med Internet Res 2025-05-15

這篇回顧分析30篇用大型語言模型做臨床文本摘要的研究，發現多集中在美國加護病房的英文放射科報告，且常用同一資料集。大多數採抽象式摘要和開源模型，但方法和評估標準不一，外部驗證和安全性分析很少。整體來說，目前研究還在初步階段，實際臨床應用有限，未來需加強評估和重視臨床實用性。 PubMed DOI

Automatic Summarization of Doctor-Patient Encounter Dialogues Using Large Language Model through Prompt Tuning.
利用提示微調大型語言模型自動摘要醫病對話紀錄 AMIA Jt Summits Transl Sci Proc 2025-06-12

**重點摘要：** 這項研究顯示，使用 prompt-tuning 搭配大型臨床語言模型（GatorTronGPT）可以有效地摘要醫師與病患之間的對話，不僅表現優於以往經過 fine-tune 的模型，而且更有效率，因為不需要更新模型的參數。 PubMed

Verifiable Summarization of Electronic Health Records Using Large Language Models to Support Chart Review.
使用大型語言模型驗證性摘要電子健康紀錄以支援病歷審查 medRxiv 2025-06-12

這項研究發現，用大型語言模型自動產生心臟衰竭住院摘要，能幫助部分醫師更快回答問題，且準確率沒變。大多數醫師認為這樣能省時間，也願意使用，但摘要格式要配合個人需求。整體來說，LLM有助提升醫師效率，但摘要內容還需客製化。 PubMed DOI

A novel fine-tuning and evaluation methodology for large language models on IoT raw data summaries (LLM-RawDMeth): A joint perspective in diabetes care.
物聯網原始數據摘要大型語言模型之新穎微調與評估方法（LLM-RawDMeth）：糖尿病照護的整合觀點 Comput Methods Programs Biomed 2025-06-14

這項研究用專家指導的模糊邏輯和提示工程，微調GPT模型，讓它能準確又簡潔地摘要連續血糖監測數據。微調後的GPT-4o準確率高達96%，顯示AI有助於糖尿病管理，能把複雜數據轉成實用資訊，減輕醫護人員負擔。 PubMed DOI

原始文章

站上相關主題文章列表