原始文章

多模態大型語言模型(MLLMs)正在改變醫療保健,特別是在自動化放射學報告生成(RRG)方面。雖然RRG在2D影像上已經取得成效,但3D醫學影像的應用仍待開發。為此,我們建立了3D-BrainCT數據集,包含18,885對文本與掃描影像,並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估(FORTE)來評估報告質量,結果顯示BrainGPT的FORTE F1分數為0.71,74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI


站上相關主題文章列表

將非結構化的放射科報告轉換為結構化數據,雖然大型語言模型(LLMs)展現出潛力,但面臨多項挑戰,如醫學術語的模糊性、縮寫的使用、報告表達的多樣性及數據質量不一等。為了克服這些問題,可以採用深度學習模型進行微調、結合規則系統、使用本體論等方法。此外,確保數據質量與可靠性也很重要,需透過穩健的評估指標、上下文整合、持續學習及人類監督來提升準確性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT-4和NotebookLM,使用METhodological RadiomICs Score(METRICS)工具來檢視放射組學研究的方法學質量。分析了2024年發表的48篇開放存取文章,結果顯示ChatGPT-4的中位數得分為79.5%,優於NotebookLM(61.6%)和人類專家(69.0%),且差異顯著。雖然LLMs在評估速度上較快,但仍需改進,以便更接近人類專家的評估結果。 PubMed DOI

這項研究評估大型語言模型(LLMs)在檢測和修正MRI伪影的表現,並與放射科醫生進行比較。研究分為三個階段: 1. 第一階段中,六個LLMs和五位放射科醫生回答42個文本問題,LLMs表現優於醫生,ChatGPT o1-preview得分最高。 2. 第二階段,放射科醫生評估100張含伪影的MRI影像,醫生的表現明顯優於LLMs,資深醫生準確率高。 3. 第三階段在1.5個月後重新評估,檢查回應一致性。 結果顯示,LLMs在文本任務中表現佳,但在視覺解釋上仍有挑戰,建議作為教育工具或輔助系統使用。 PubMed DOI

最近大型語言模型(LLMs)如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現,旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法,並透過多種指標進行評估。結果顯示,GPT-4在性能上優於GPT-3.5,且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型,以提升文檔效率與準確性。 PubMed DOI

大型語言模型(LLMs)如ChatGPT、Llama和Claude,正在改變醫療保健,特別是在放射科。最近,弗賴堡和巴塞爾大學醫院的研究顯示,這些系統能有效整合影像存檔與傳輸系統(PACS)和電子健康紀錄(EHR),提升醫師效率,縮短報告時間,並自動化例行任務。研究結果顯示,LLMs不僅提高了診斷質量,還促進了跨學科合作。未來應著重增強透明度和擴大應用範圍,確保遵守倫理和法律標準。 PubMed DOI

這項研究評估了一種基於GPT的大型語言模型(LLM)在標註非結構化放射學報告的效果,並與現有的CheXbert和CheXpert進行比較,使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示,LLM的平均F1分數為0.9014,超過CheXpert(0.8864),接近CheXbert(0.9047)。在處理較長、複雜的病理描述時,LLM表現尤為優異。整體來看,LLM是傳統BERT方法的有力替代,提供更好的上下文理解,並減少對特徵工程的需求。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI

Reg2RG框架針對CT報告生成的挑戰,專注於特定解剖區域,提升診斷性能。它利用通用分割模組的遮罩捕捉局部特徵,並引入局部特徵解耦(LFD)策略,以低計算成本保持高解析度。框架還實施區域報告對齊(RRA)訓練策略,透過識別參考區域來生成更具可解釋性的報告。大型語言模型(LLM)用作解碼器,從視覺特徵生成報告。實驗結果顯示,Reg2RG在自然語言生成和臨床效能上超越多種先進方法,且代碼已在GitHub公開。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI

這篇論文提出一套新架構,結合影像分割、圖譜定位和大型語言模型,能自動產生清楚又可信的醫學報告。透過防止AI亂編(像用JSON格式和限制提示),大幅提升報告正確性和可解釋性,解決AI黑盒問題。實測在腦腫瘤和多發性硬化症上,分割和報告表現都很優秀,有助提升醫界對AI的信任。完整程式碼可在GitHub下載。 PubMed DOI