原始文章

這篇論文介紹了STREAM,一種新型的自動胸部X光報告生成方法,結合了時間和空間資訊。與傳統依賴固定影像數量的方法不同,STREAM模擬臨床診斷,整合當前與歷史研究,讓病人狀況的解讀更全面。其架構基於編碼器-解碼器模型,並使用大型語言模型作為解碼器。 STREAM的主要組件包括: 1. **Token Packer**:捕捉時空視覺動態,整合當前與過去的影像。 2. **Progressive Semantic Retriever**:從知識庫檢索相關語義實體,增強報告生成。 該方法在公共數據集上表現優異,作者已公開代碼和知識庫供後續研究使用。 PubMed DOI


站上相關主題文章列表

隨著醫學影像使用增加,放射科醫師面臨審查影像和撰寫報告的壓力。為了減輕這負擔並提升病患護理品質,研究者正利用深度學習技術自動生成醫學報告。本文提供自動醫學報告生成的最新進展,重點探討四個領域:報告生成問題的本質、影像數據集介紹、評估指標分析,以及研究分類。還強調現存挑戰並建議未來研究方向,旨在增進對該領域的理解與發展。 PubMed DOI

這項研究開發了一個名為CXR-LLaVA的開源多模態大型語言模型,專門用來解讀胸部X光影像並生成放射科報告。研究人員在包含374,881張標記影像的數據集上預訓練視覺變壓器,並結合大型語言模型進行微調,使用217,699份報告來提升生成準確性。CXR-LLaVA在內部測試中達到平均F1分數0.81,並在外部測試中為0.56,顯示出超越其他先進模型的潛力。該模型的報告準確率為72.7%,顯示出自動報告的可行性,並強調開源對進一步研究的重要性。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

多模態大型語言模型(MLLMs)正在改變醫療保健,特別是在自動化放射學報告生成(RRG)方面。雖然RRG在2D影像上已經取得成效,但3D醫學影像的應用仍待開發。為此,我們建立了3D-BrainCT數據集,包含18,885對文本與掃描影像,並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估(FORTE)來評估報告質量,結果顯示BrainGPT的FORTE F1分數為0.71,74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI

這項研究探討了一個專門的多模態生成式人工智慧模型在胸部X光片解讀上的影響,評估其診斷準確性和臨床價值。該模型基於42家醫院18年的X光片報告數據訓練,並在多個公共數據集上測試。 主要發現包括: - 模型對氣胸和皮下氣腫的檢測敏感度分別為95.3%和92.6%。 - 報告接受率:人工智慧模型70.5%、放射科醫師73.3%、GPT-4Vision僅29.6%。 - 人工智慧模型的報告獲得最高一致性和質量評分,顯示其可靠性優於GPT-4Vision。 總結來說,這項研究顯示專門的人工智慧模型在放射學診斷中具備顯著潛力。 PubMed DOI

這項研究評估了一種基於GPT的大型語言模型(LLM)在標註非結構化放射學報告的效果,並與現有的CheXbert和CheXpert進行比較,使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示,LLM的平均F1分數為0.9014,超過CheXpert(0.8864),接近CheXbert(0.9047)。在處理較長、複雜的病理描述時,LLM表現尤為優異。整體來看,LLM是傳統BERT方法的有力替代,提供更好的上下文理解,並減少對特徵工程的需求。 PubMed DOI

大型基礎模型在生物醫學領域有潛力,但在臨床應用上面臨挑戰,如性能差距和高成本。本研究展示了一個開源的小型多模態模型,透過胸部X光影像生成診斷結果,解決放射學的問題。研究團隊訓練了697,000對影像-文本對,開發了專門的胸部X光編碼器,並與預訓練的語言模型整合。為了評估模型的準確性,團隊創建了CheXprompt,並用於基準測試,LLaVA-Rad模型表現優於一些大型模型。雖然尚未適合實時臨床使用,但這代表了在放射學中可臨床應用的進展。 PubMed DOI

Reg2RG框架針對CT報告生成的挑戰,專注於特定解剖區域,提升診斷性能。它利用通用分割模組的遮罩捕捉局部特徵,並引入局部特徵解耦(LFD)策略,以低計算成本保持高解析度。框架還實施區域報告對齊(RRA)訓練策略,透過識別參考區域來生成更具可解釋性的報告。大型語言模型(LLM)用作解碼器,從視覺特徵生成報告。實驗結果顯示,Reg2RG在自然語言生成和臨床效能上超越多種先進方法,且代碼已在GitHub公開。 PubMed DOI

這項研究提出結合特徵摘要、思路鏈推理和混合型RAG架構的新提示工程方法,能提升大型語言模型判讀胸部CT報告、診斷肺部疾病的準確度。用2,965份報告測試,結果比傳統深度學習和其他提示法更準,外部驗證也表現優異。此方法不僅提升可解釋性,也有助臨床更精確診斷。 PubMed DOI

這篇研究系統性回顧了自動醫學放射報告生成的深度學習方法,分析78篇重要文獻,涵蓋資料集、模型、評估指標等,並整理從傳統到大型語言模型的發展趨勢。文中也提出未來研究方向,期望推動AI放射報告生成的標準化與進步。 PubMed DOI