Expert evaluation of large language models for clinical dialogue summarization.
大型語言模型在臨床對話摘要中的專家評估。 Sci Rep 2025-01-08

這項研究評估了多種大型語言模型在總結臨床對話的表現，並與人類生成的摘要進行比較。測試了五個模型，包括微調的變壓器模型和ChatGPT。結果顯示，微調模型在ROUGE分數上表現最佳，而ChatGPT在UniEval指標上表現優異，獲得最高分。臨床醫師的評估也偏向ChatGPT，顯示其摘要接近人類質量。研究指出ROUGE可能不適合臨床摘要評估，強調了大型語言模型在自動化臨床對話摘要的潛力，但仍需進一步研究以確認其可靠性。 PubMed DOI

Empowering large language models for automated clinical assessment with generation-augmented retrieval and hierarchical chain-of-thought.
利用生成增強檢索和分層思維鏈來提升大型語言模型的自動臨床評估能力。 Artif Intell Med 2025-02-20

這項研究提出了一種名為「GAPrompt」的新方法，旨在提升大型語言模型（LLMs）在自動化臨床評估中的應用，特別是針對電子健康紀錄（EHRs）中的中風評估。GAPrompt包含五個關鍵組件，包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示，GAPrompt能有效分析EHRs並提供定量評估，解決傳統中風評估的勞動密集問題，顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

Leveraging Large Language Models for High-Quality Lay Summaries: Efficacy of ChatGPT-4 with Custom Prompts in a Consecutive Series of Prostate Cancer Manuscripts.
利用大型語言模型生成高品質的通俗摘要：ChatGPT-4 在一系列前列腺癌手稿中使用自定義提示的有效性。 Curr Oncol 2025-02-25

這項研究探討了ChatGPT-4是否能創建清晰易懂的前列腺癌研究摘要，分析了2022年7月至2024年6月間80篇發表於*Current Oncology*的文章。研究發現，使用詳細提示的摘要在可讀性和質量上都顯著優於簡單提示。雖然兩者都能提供全面的摘要，但詳細提示讓資訊更易於被廣泛受眾理解。研究強調了自訂提示在醫療溝通中的重要性，並建議未來應考慮病患反饋，將此方法擴展至其他醫療領域。 PubMed DOI

Summarizing Online Patient Conversations Using Generative Language Models: Experimental and Comparative Study.
使用生成語言模型總結線上病患對話：實驗性和比較研究。 JMIR Med Inform 2025-04-14

這項研究探討大型語言模型（LLMs）在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型，並測試不同的提示策略。結果顯示，GPT-3.5在零-shot提示中表現最佳，並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解，但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

Summarize-then-Prompt: A Novel Prompt Engineering Strategy for Generating High-Quality Discharge Summaries.
Summarize-then-Prompt：一種用於產生高品質出院摘要的全新提示工程策略 Appl Clin Inform 2025-05-21

研究發現，先把每份臨床紀錄各自摘要，再合併生成出院摘要（先摘要再提示），比直接合併所有紀錄來得更完整、正確，內容也不會變冗長。這種方法有望協助自動化出院摘要撰寫，減輕醫師工作壓力。 PubMed DOI

Large language model discharge summary preparation using real-world electronic medical record data shows promise.
使用真實世界電子病歷資料進行大型語言模型出院摘要撰寫展現潛力 Intern Med J 2025-05-28

**重點摘要：** 這項研究測試了兩個大型語言模型（LLMs），用來從真實的臨床紀錄自動產生出院摘要，並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多，顯示LLMs有潛力協助醫師準備出院摘要，進而減輕臨床醫師的行政工作負擔。 PubMed DOI

Prompting Pro Tips! Best Practices for Generating Clinical Narrative Summaries.
臨床敘述摘要撰寫技巧！產生臨床敘述摘要的最佳實務指南 Mil Med 2025-05-31

這項研究發現，用結構化提示雖然能讓八款大型語言模型產生更貼近臨床需求的摘要，但也更容易出現錯誤和偏誤。沒有任何模型能穩定產出臨床可用的摘要，因此各機構還是要自行把關，確保摘要內容正確無誤。 PubMed DOI

Enhancing Cross-Domain Generalizability in Social Determinants of Health Extraction with Prompt-Tuning Large Language Models.
利用提示微調大型語言模型提升社會健康決定因素萃取的跨領域泛化能力 AMIA Jt Summits Transl Sci Proc 2025-06-12

這項研究發現，結合 soft prompt-based learning 和大型語言模型（像 GatorTronGPT），能大幅提升從不同醫院和疾病的臨床文本中萃取社會健康決定因素（SDoH）的效果。經過 prompt-tuning 的 GatorTronGPT，F1 分數最高比傳統 fine-tuned 模型多出 21.8%，顯示它在跨領域應用上表現更好。 PubMed

Verifiable Summarization of Electronic Health Records Using Large Language Models to Support Chart Review.
使用大型語言模型驗證性摘要電子健康紀錄以支援病歷審查 medRxiv 2025-06-12

這項研究發現，用大型語言模型自動產生心臟衰竭住院摘要，能幫助部分醫師更快回答問題，且準確率沒變。大多數醫師認為這樣能省時間，也願意使用，但摘要格式要配合個人需求。整體來說，LLM有助提升醫師效率，但摘要內容還需客製化。 PubMed DOI

A novel fine-tuning and evaluation methodology for large language models on IoT raw data summaries (LLM-RawDMeth): A joint perspective in diabetes care.
物聯網原始數據摘要大型語言模型之新穎微調與評估方法（LLM-RawDMeth）：糖尿病照護的整合觀點 Comput Methods Programs Biomed 2025-06-14

這項研究用專家指導的模糊邏輯和提示工程，微調GPT模型，讓它能準確又簡潔地摘要連續血糖監測數據。微調後的GPT-4o準確率高達96%，顯示AI有助於糖尿病管理，能把複雜數據轉成實用資訊，減輕醫護人員負擔。 PubMed DOI

原始文章

站上相關主題文章列表