原始文章

**重點摘要:** 這項研究顯示,使用 prompt-tuning 搭配大型臨床語言模型(GatorTronGPT)可以有效地摘要醫師與病患之間的對話,不僅表現優於以往經過 fine-tune 的模型,而且更有效率,因為不需要更新模型的參數。 PubMed


站上相關主題文章列表

最近的研究顯示大型語言模型(LLMs)在自然語言處理,特別是遠程醫療中有很大潛力。研究比較了GPT-3.5、GPT-4和LLaMA 2在醫療諮詢摘要的表現。結果顯示,LLaMA2-7B在n-gram精確度上表現最佳,而GPT-4在語義準確性和可讀性上優於其他模型。所有模型在總結能力上相似,但GPT-4在內容理解和結構上稍有優勢,顯示其生成病人友好摘要的潛力。研究也探討了使用LLMs的潛在風險與限制。 PubMed DOI

這項研究評估了多種大型語言模型在總結臨床對話的表現,並與人類生成的摘要進行比較。測試了五個模型,包括微調的變壓器模型和ChatGPT。結果顯示,微調模型在ROUGE分數上表現最佳,而ChatGPT在UniEval指標上表現優異,獲得最高分。臨床醫師的評估也偏向ChatGPT,顯示其摘要接近人類質量。研究指出ROUGE可能不適合臨床摘要評估,強調了大型語言模型在自動化臨床對話摘要的潛力,但仍需進一步研究以確認其可靠性。 PubMed DOI

這項研究提出了一種名為「GAPrompt」的新方法,旨在提升大型語言模型(LLMs)在自動化臨床評估中的應用,特別是針對電子健康紀錄(EHRs)中的中風評估。GAPrompt包含五個關鍵組件,包括選擇適合的LLM、建立增強知識庫、改善檢索、增強推理精確性及結合多重生成輸出。研究結果顯示,GAPrompt能有效分析EHRs並提供定量評估,解決傳統中風評估的勞動密集問題,顯示LLMs在醫療及其他領域的潛力。 PubMed DOI

這項研究探討了ChatGPT-4是否能創建清晰易懂的前列腺癌研究摘要,分析了2022年7月至2024年6月間80篇發表於*Current Oncology*的文章。研究發現,使用詳細提示的摘要在可讀性和質量上都顯著優於簡單提示。雖然兩者都能提供全面的摘要,但詳細提示讓資訊更易於被廣泛受眾理解。研究強調了自訂提示在醫療溝通中的重要性,並建議未來應考慮病患反饋,將此方法擴展至其他醫療領域。 PubMed DOI

這項研究探討大型語言模型(LLMs)在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型,並測試不同的提示策略。結果顯示,GPT-3.5在零-shot提示中表現最佳,並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解,但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

研究發現,先把每份臨床紀錄各自摘要,再合併生成出院摘要(先摘要再提示),比直接合併所有紀錄來得更完整、正確,內容也不會變冗長。這種方法有望協助自動化出院摘要撰寫,減輕醫師工作壓力。 PubMed DOI

這項研究發現,用結構化提示雖然能讓八款大型語言模型產生更貼近臨床需求的摘要,但也更容易出現錯誤和偏誤。沒有任何模型能穩定產出臨床可用的摘要,因此各機構還是要自行把關,確保摘要內容正確無誤。 PubMed DOI

這項研究發現,結合 soft prompt-based learning 和大型語言模型(像 GatorTronGPT),能大幅提升從不同醫院和疾病的臨床文本中萃取社會健康決定因素(SDoH)的效果。經過 prompt-tuning 的 GatorTronGPT,F1 分數最高比傳統 fine-tuned 模型多出 21.8%,顯示它在跨領域應用上表現更好。 PubMed

這項研究發現,用大型語言模型自動產生心臟衰竭住院摘要,能幫助部分醫師更快回答問題,且準確率沒變。大多數醫師認為這樣能省時間,也願意使用,但摘要格式要配合個人需求。整體來說,LLM有助提升醫師效率,但摘要內容還需客製化。 PubMed DOI

這項研究用專家指導的模糊邏輯和提示工程,微調GPT模型,讓它能準確又簡潔地摘要連續血糖監測數據。微調後的GPT-4o準確率高達96%,顯示AI有助於糖尿病管理,能把複雜數據轉成實用資訊,減輕醫護人員負擔。 PubMed DOI