Automated classification of brain MRI reports using fine-tuned large language models.
使用微調的大型語言模型自動分類腦部 MRI 報告。 Neuroradiology 2024-07-12

研究測試了精細調校的大型語言模型（LLM）在分類腦部磁振造影報告的效能。LLM表現高準確、敏感，且處理速度快，比人類放射科醫師更有效。結果顯示LLM在醫學影像分析上有潛力，與專業醫師相當。 PubMed DOI

Large Language Models-Supported Thrombectomy Decision-Making in Acute Ischemic Stroke Based on Radiology Reports: Feasibility Qualitative Study.
基於放射學報告的大型語言模型支持急性缺血性中風血栓切除決策：可行性質性研究。 J Med Internet Res 2025-02-13

這項研究探討了大型語言模型（LLMs）在急性缺血性中風（AIS）病例中的應用，特別是機械性血栓切除術（MT）的適應性。研究分析了100名AIS患者的數據，LLM根據放射學報告、神經症狀、發病資訊和患者年齡進行判斷。結果顯示，該AI模型的整體準確率達88%，特異性96%，敏感性80%，曲線下面積為0.92，顯示出LLMs在整合醫療數據方面的潛力，並鼓勵進一步探索其在臨床的應用。 PubMed DOI

Information Extraction from Lumbar Spine MRI Radiology Reports Using GPT4: Accuracy and Benchmarking Against Research-Grade Comprehensive Scoring.
使用 GPT-4 從腰椎 MRI 放射學報告中提取資訊：準確性及與研究級綜合評分的基準比較。 Diagnostics (Basel) 2025-04-12

本研究旨在開發一個標準化流程，利用大型語言模型（LLM）從腰椎MRI報告中提取數據，並評估其與專業評分的一致性。研究分析了230名慢性下背痛患者的數據，結果顯示模型在數據提取上表現優異，平均F1分數達0.96，但與專業評分的一致性僅為中等（kappa 0.424）。特別是在側凹狹窄的報告中，低報現象明顯，顯示出需要更客觀的數據提取方法。 PubMed DOI

Improving Radiology Report Conciseness and Structure via Local Large Language Models.
利用在地大型語言模型提升放射科報告的簡潔性與結構性 J Imaging Inform Med 2025-04-21

這項研究用私有大型語言模型在本地處理814份放射科報告，成功把內容重組、精簡，並依器官系統分類。Mixtral LLM表現最好，能減少超過53%冗詞，提升報告清晰度和結構。結果證明開源LLM不僅保障資料安全，也能有效簡化報告流程，幫助醫師更快掌握重點，優化臨床工作。 PubMed DOI

Role of Model Size and Prompting Strategies in Extracting Labels from Free-Text Radiology Reports with Open-Source Large Language Models.
開源大型語言模型在從自由文本放射學報告中擷取標籤時，模型規模與提示策略的角色 J Imaging Inform Med 2025-05-05

開源大型語言模型（LLMs）在從放射科報告擷取標籤上，比傳統規則式工具（如 CheXpert）更準確。規模較大的 LLMs，特別在判讀困難異常（如肋骨骨折）時，敏感度更高。不同提示策略（如 chain-of-thought）效果不一。即使標籤有雜訊，用 LLM 擷取的標籤訓練影像分類器，表現仍不錯，但最終評估結果會受標註方法影響很大。因此，選對 LLM、提示方式和評估方法對醫療 AI 發展很重要。 PubMed DOI

Large Language Models for Diagnosing Focal Liver Lesions From CT/MRI Reports: A Comparative Study With Radiologists.
利用大型語言模型從CT/MRI報告診斷肝臟局灶性病變：與放射科醫師的比較研究 Liver Int 2025-05-10

這項研究發現，ChatGPT-4o在診斷肝臟局部病灶時，表現大致和資淺放射科醫師差不多，但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程，也沒明顯提升醫師的診斷表現。總結來說，目前大型語言模型對診斷這類疾病的幫助有限，準確度還有待加強。 PubMed DOI

Integrating Large language models into radiology workflow: Impact of generating personalized report templates from summary.
將大型語言模型整合至放射科工作流程：從摘要生成個人化報告模板的影響 Eur J Radiol 2025-05-28

這項研究發現，像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告，速度比傳統方式快，品質也差不多。雖然大多數錯誤跟模板有關，重大臨床錯誤很少見，但還是建議要有人工審查，確保報告正確無誤。 PubMed DOI

Fine-tuned large Language model for extracting newly identified acute brain infarcts based on computed tomography or magnetic resonance imaging reports.
基於電腦斷層掃描或磁振造影報告，萃取新發現急性腦梗塞的微調大型語言模型 Emerg Radiol 2025-06-01

這項研究開發了一套AI系統，能用大型語言模型自動從CT和MRI放射科報告中偵測新發急性或亞急性腦梗塞。模型在大量日文報告訓練下，對新發腦梗塞的敏感度高達0.891，整體準確率0.923，能快速分類並及早發出警示，協助臨床判斷。 PubMed DOI

Large Language Models in Spine Surgery: A Promising Technology.
脊椎手術中的大型語言模型：一項前景看好的技術 HSS J 2025-06-02

**重點摘要（繁體中文）:** 大型語言模型（LLMs）在脊椎手術領域有很多潛在應用，包括提升病人衛教、協助研究、輔助臨床決策，以及幫助圍手術期照護。這篇綜述整理了目前LLMs在這些方面的應用現況與未來發展潛力，同時也討論了它們在這些領域中所面臨的限制與挑戰。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

原始文章

站上相關主題文章列表