Aligning large language models with radiologists by reinforcement learning from AI feedback for chest CT reports.
透過AI反饋的強化學習，將大型語言模型與放射科醫生對齊，以生成胸部CT報告。 Eur J Radiol 2025-02-15

這項研究探討如何利用人工智慧反饋的強化學習（RLAIF）來改善大型語言模型（LLMs）在胸部CT報告摘要中與放射科醫師的對齊。研究使用了94,844份胸部CT報告，並由放射科醫師和人工智慧模型進行審查。結果顯示，經過RLAIF微調後，LLMs的表現顯著提升，精確度、召回率和F1分數均有改善，且放射科醫師與AI的排名一致率達77.9%。這顯示人工智慧在臨床報告摘要中具有潛力，為未來放射學的發展奠定基礎。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Towards a holistic framework for multimodal LLM in 3D brain CT radiology report generation.
朝向一個整體框架，用於多模態 LLM 在 3D 腦部 CT 放射報告生成中的應用。 Nat Commun 2025-03-06

多模態大型語言模型（MLLMs）正在改變醫療保健，特別是在自動化放射學報告生成（RRG）方面。雖然RRG在2D影像上已經取得成效，但3D醫學影像的應用仍待開發。為此，我們建立了3D-BrainCT數據集，包含18,885對文本與掃描影像，並開發了專為3D CT RRG設計的BrainGPT模型。我們提出了特徵導向放射學任務評估（FORTE）來評估報告質量，結果顯示BrainGPT的FORTE F1分數為0.71，74%的報告與人類撰寫的無法區分。這項研究為未來醫療應用中的人機協作提供了堅實的基礎。 PubMed DOI

Automated Radiology Report Labeling in Chest X-Ray Pathologies: Development and Evaluation of a Large Language Model Framework.
胸部 X 光病理的自動放射學報告標籤：大型語言模型框架的開發與評估。 JMIR Med Inform 2025-03-28

這項研究評估了一種基於GPT的大型語言模型（LLM）在標註非結構化放射學報告的效果，並與現有的CheXbert和CheXpert進行比較，使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示，LLM的平均F1分數為0.9014，超過CheXpert（0.8864），接近CheXbert（0.9047）。在處理較長、複雜的病理描述時，LLM表現尤為優異。整體來看，LLM是傳統BERT方法的有力替代，提供更好的上下文理解，並減少對特徵工程的需求。 PubMed DOI

Large Language Models in Summarizing Radiology Report Impressions for Lung Cancer in Chinese: Evaluation Study.
大型語言模型在總結肺癌放射科報告印象中的應用：評估研究。 J Med Internet Res 2025-04-03

這項研究評估了九個大型語言模型（LLMs）在總結中國放射科報告中對肺癌的印象表現。研究發現，ERNIE Bot、Tongyi Qianwen 和 Claude 在生成 CT、PET-CT 和超音波報告的印象方面表現最佳。雖然生成的印象通常完整且正確，但在簡潔性和真實性上仍有不足，且與放射科醫生撰寫的印象相比，仍存在顯著差距。整體來看，現有的 LLMs 雖能生成高完整性和正確性的報告，但尚無法完全取代放射科醫生。 PubMed DOI

Performance of large language models for CAD-RADS 2.0 classification derived from cardiac CT reports.
大型語言模型在心臟CT報告中對CAD-RADS 2.0分類的表現。 J Cardiovasc Comput Tomogr 2025-04-10

這項研究評估大型語言模型（LLMs）自動生成CAD-RADS 2.0分數的能力，對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告，使用了多種先進的LLMs，包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示，GPT-4o和Llama3 70b的準確率最高，分別為93%和92.5%。這些發現顯示，增強上下文學習的模型能有效生成CAD-RADS 2.0分數，提高心臟CT報告的效率與一致性，且開源模型在數據安全上也具優勢。 PubMed DOI

Improving Radiology Report Conciseness and Structure via Local Large Language Models.
利用在地大型語言模型提升放射科報告的簡潔性與結構性 J Imaging Inform Med 2025-04-21

這項研究用私有大型語言模型在本地處理814份放射科報告，成功把內容重組、精簡，並依器官系統分類。Mixtral LLM表現最好，能減少超過53%冗詞，提升報告清晰度和結構。結果證明開源LLM不僅保障資料安全，也能有效簡化報告流程，幫助醫師更快掌握重點，優化臨床工作。 PubMed DOI

Retrieval-Augmented Generation with Large Language Models in Radiology: From Theory to Practice.
放射科中結合大型語言模型的檢索增強生成：從理論到實務 Radiol Artif Intell 2025-06-04

大型語言模型能幫助放射科減輕工作量，但還有像是亂編內容和資訊來源不明的問題。結合RAG技術能提升可靠性，但面對大量或複雜資料時還需改進。本文回顧LLMs最新進展及放射科應用案例，並提出未來研究方向。 PubMed DOI

Enhancing Radiology Report Generation via Multi-Phased Supervision.
透過多階段監督提升放射科報告生成 IEEE Trans Med Imaging 2025-06-25

這篇論文提出一種多階段訓練法，先用疾病標籤、再用實體關係、最後才用完整報告來訓練大型語言模型，逐步增加難度。這樣能讓模型更專注臨床重點，生成的放射科報告在語言流暢度和臨床準確性都表現最佳。程式碼已開源於 GitHub。 PubMed DOI

From segmentation to explanation: Generating textual reports from MRI with LLMs.
從分割到解釋：利用 LLMs 由 MRI 產生文字報告 Comput Methods Programs Biomed 2025-07-09

這篇論文提出一套新架構，結合影像分割、圖譜定位和大型語言模型，能自動產生清楚又可信的醫學報告。透過防止AI亂編（像用JSON格式和限制提示），大幅提升報告正確性和可解釋性，解決AI黑盒問題。實測在腦腫瘤和多發性硬化症上，分割和報告表現都很優秀，有助提升醫界對AI的信任。完整程式碼可在GitHub下載。 PubMed DOI

原始文章

站上相關主題文章列表