原始文章

這篇論文提出「Noisy Report Refinement(NRR)」新任務,專注於把雜亂的線上文本轉換成乾淨的放射科報告。作者用大型語言模型結合自我批判和選擇策略來提升報告品質,並推出專屬的新基準NRRBench。實驗證明,他們的方法在報告的乾淨度、實用性和正確性上都比現有方法更好。 PubMed DOI


站上相關主題文章列表

隨著醫學影像使用增加,放射科醫師面臨審查影像和撰寫報告的壓力。為了減輕這負擔並提升病患護理品質,研究者正利用深度學習技術自動生成醫學報告。本文提供自動醫學報告生成的最新進展,重點探討四個領域:報告生成問題的本質、影像數據集介紹、評估指標分析,以及研究分類。還強調現存挑戰並建議未來研究方向,旨在增進對該領域的理解與發展。 PubMed DOI

將非結構化的放射科報告轉換為結構化數據,雖然大型語言模型(LLMs)展現出潛力,但面臨多項挑戰,如醫學術語的模糊性、縮寫的使用、報告表達的多樣性及數據質量不一等。為了克服這些問題,可以採用深度學習模型進行微調、結合規則系統、使用本體論等方法。此外,確保數據質量與可靠性也很重要,需透過穩健的評估指標、上下文整合、持續學習及人類監督來提升準確性。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

這項研究評估了一種基於GPT的大型語言模型(LLM)在標註非結構化放射學報告的效果,並與現有的CheXbert和CheXpert進行比較,使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示,LLM的平均F1分數為0.9014,超過CheXpert(0.8864),接近CheXbert(0.9047)。在處理較長、複雜的病理描述時,LLM表現尤為優異。整體來看,LLM是傳統BERT方法的有力替代,提供更好的上下文理解,並減少對特徵工程的需求。 PubMed DOI

研究團隊開發了一套新方法,訓練出比傳統關鍵字或現有語意模型更準確的放射科報告搜尋系統 RadSearch。這系統在臨床應用上表現更好,結合大型語言模型後,診斷也更精確,有助提升臨床效率和報告搜尋的實用性。 PubMed DOI

這項研究用私有大型語言模型在本地處理814份放射科報告,成功把內容重組、精簡,並依器官系統分類。Mixtral LLM表現最好,能減少超過53%冗詞,提升報告清晰度和結構。結果證明開源LLM不僅保障資料安全,也能有效簡化報告流程,幫助醫師更快掌握重點,優化臨床工作。 PubMed DOI

PRECISE 框架用 GPT-4 把放射科報告改寫成六年級程度,讓病人更容易看懂。研究顯示,這方法不但提升報告的可讀性,醫師和一般人也都覺得內容清楚又可靠。這有助於病人了解自己的檢查結果,推動以病人為主的醫療,而且不會增加醫師的工作量。 PubMed DOI

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現,發現經過微調的 Llama-3-70B-Instruct 模型最準確,F1 分數約 0.75–0.83。實測也證實,這模型能有效協助醫師找出報告錯誤,顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

這篇論文提出一種多階段訓練法,先用疾病標籤、再用實體關係、最後才用完整報告來訓練大型語言模型,逐步增加難度。這樣能讓模型更專注臨床重點,生成的放射科報告在語言流暢度和臨床準確性都表現最佳。程式碼已開源於 GitHub。 PubMed DOI

這篇研究系統性回顧了自動醫學放射報告生成的深度學習方法,分析78篇重要文獻,涵蓋資料集、模型、評估指標等,並整理從傳統到大型語言模型的發展趨勢。文中也提出未來研究方向,期望推動AI放射報告生成的標準化與進步。 PubMed DOI