原始文章

這篇研究提出AraSum,一款專為阿拉伯語醫療摘要打造的輕量AI模型。AraSum運用知識蒸餾和合成醫療對話資料,不僅在自動評分和人工評估上都勝過大型模型JAIS-30B,還能大幅降低運算資源需求。證明小型高效模型也能有效支援資源較少語言的醫療應用,推動AI更永續與公平發展。 PubMed DOI


站上相關主題文章列表

這項研究評估了多種大型語言模型在總結臨床對話的表現,並與人類生成的摘要進行比較。測試了五個模型,包括微調的變壓器模型和ChatGPT。結果顯示,微調模型在ROUGE分數上表現最佳,而ChatGPT在UniEval指標上表現優異,獲得最高分。臨床醫師的評估也偏向ChatGPT,顯示其摘要接近人類質量。研究指出ROUGE可能不適合臨床摘要評估,強調了大型語言模型在自動化臨床對話摘要的潛力,但仍需進一步研究以確認其可靠性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在總結睡眠醫學研究文章的效果,並與醫學生的摘要進行比較。19名醫學生評估了三個AI生成和三個人類生成的摘要,結果顯示兩者在可讀性和理解上無顯著差異(p值均大於0.2)。不過,研究也指出參與者人數少、可能的偏見及缺乏視覺輔助等限制。總體來看,AI生成的摘要與人類的相當,但仍需進一步研究以了解AI在醫學文獻總結中的優缺點。 PubMed DOI

這項研究用三種開源AI模型自動摘要病人影像檢查紀錄,經專業醫師評估,發現AI摘要內容準確、實用又好上手。這樣能幫醫師快速掌握重點,省下查閱時間,資訊品質也沒打折,對放射科工作流程很有幫助。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

這項研究用大型LLM產生合成資料,來訓練較小的開源模型,讓它們在臨床紀錄資訊擷取上表現接近大型模型。8B參數的模型幾乎和70B一樣好,且只針對難題微調也有效。這方法能降低運算需求、保護隱私,適合在本地硬體上應用。 PubMed DOI

這項研究用開源大型語言模型(像LLaMA3)自動產生德文出院摘要,並請醫師評估品質。結果顯示,AI生成的摘要資訊算完整,但常漏掉重要細節或出現錯誤,尤其在複雜病例時更明顯。研究也發現資料集太小、資料不全和模型德文醫學詞彙不足是主要挑戰,建議未來要用更多資料和微調模型,才能提升表現。 PubMed DOI

這篇回顧分析30篇用大型語言模型做臨床文本摘要的研究,發現多集中在美國加護病房的英文放射科報告,且常用同一資料集。大多數採抽象式摘要和開源模型,但方法和評估標準不一,外部驗證和安全性分析很少。整體來說,目前研究還在初步階段,實際臨床應用有限,未來需加強評估和重視臨床實用性。 PubMed DOI

**重點摘要:** 這項研究顯示,使用 prompt-tuning 搭配大型臨床語言模型(GatorTronGPT)可以有效地摘要醫師與病患之間的對話,不僅表現優於以往經過 fine-tune 的模型,而且更有效率,因為不需要更新模型的參數。 PubMed

這項研究發現,用大型語言模型自動產生心臟衰竭住院摘要,能幫助部分醫師更快回答問題,且準確率沒變。大多數醫師認為這樣能省時間,也願意使用,但摘要格式要配合個人需求。整體來說,LLM有助提升醫師效率,但摘要內容還需客製化。 PubMed DOI

這項研究用專家指導的模糊邏輯和提示工程,微調GPT模型,讓它能準確又簡潔地摘要連續血糖監測數據。微調後的GPT-4o準確率高達96%,顯示AI有助於糖尿病管理,能把複雜數據轉成實用資訊,減輕醫護人員負擔。 PubMed DOI