Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Aligning, Autoencoding and Prompting Large Language Models for Novel Disease Reporting.
對大型語言模型進行對齊、自編碼和提示以報告新疾病。 IEEE Trans Pattern Anal Mach Intell 2025-03-03

所提的PromptLLM方法針對生成新疾病的放射科報告，特別是在標記數據有限的情況下，提供了解決方案。它包含三個步驟： 1. **對齊**：將影像與文本報告對齊，從已標記的疾病中提取知識。 2. **自編碼**：利用新疾病的未標記數據訓練語言模型，掌握相關知識與寫作風格。 3. **提示**：用獲得的知識提示LLM，生成針對新疾病的準確報告。這方法在僅用1%訓練數據的情況下，能有效生成報告，減少對大型標記數據集的依賴，提升新興疾病的數據分析能力。相關代碼與數據已在GitHub公開。 PubMed DOI

Information Extraction from Lumbar Spine MRI Radiology Reports Using GPT4: Accuracy and Benchmarking Against Research-Grade Comprehensive Scoring.
使用 GPT-4 從腰椎 MRI 放射學報告中提取資訊：準確性及與研究級綜合評分的基準比較。 Diagnostics (Basel) 2025-04-12

本研究旨在開發一個標準化流程，利用大型語言模型（LLM）從腰椎MRI報告中提取數據，並評估其與專業評分的一致性。研究分析了230名慢性下背痛患者的數據，結果顯示模型在數據提取上表現優異，平均F1分數達0.96，但與專業評分的一致性僅為中等（kappa 0.424）。特別是在側凹狹窄的報告中，低報現象明顯，顯示出需要更客觀的數據提取方法。 PubMed DOI

Diagnostic performance of multimodal large language models in radiological quiz cases: the effects of prompt engineering and input conditions.
多模態大型語言模型於放射學問答案例中的診斷表現：提示工程與輸入條件的影響 Ultrasonography 2025-04-16

這項研究比較三款多模態大型語言模型在解讀放射影像的表現，發現 Claude 3.5 Sonnet 準確率最高。使用 AI 生成的提示語和在影像中加上描述文字，都能明顯提升診斷效果。模型表現會受病例罕見度和知識截止日影響。整體來說，善用提示工程和豐富輸入資料，有助提升 LLMs 在放射科的應用效能。 PubMed DOI

Improving Radiology Report Conciseness and Structure via Local Large Language Models.
利用在地大型語言模型提升放射科報告的簡潔性與結構性 J Imaging Inform Med 2025-04-21

這項研究用私有大型語言模型在本地處理814份放射科報告，成功把內容重組、精簡，並依器官系統分類。Mixtral LLM表現最好，能減少超過53%冗詞，提升報告清晰度和結構。結果證明開源LLM不僅保障資料安全，也能有效簡化報告流程，幫助醫師更快掌握重點，優化臨床工作。 PubMed DOI

Role of Model Size and Prompting Strategies in Extracting Labels from Free-Text Radiology Reports with Open-Source Large Language Models.
開源大型語言模型在從自由文本放射學報告中擷取標籤時，模型規模與提示策略的角色 J Imaging Inform Med 2025-05-05

開源大型語言模型（LLMs）在從放射科報告擷取標籤上，比傳統規則式工具（如 CheXpert）更準確。規模較大的 LLMs，特別在判讀困難異常（如肋骨骨折）時，敏感度更高。不同提示策略（如 chain-of-thought）效果不一。即使標籤有雜訊，用 LLM 擷取的標籤訓練影像分類器，表現仍不錯，但最終評估結果會受標註方法影響很大。因此，選對 LLM、提示方式和評估方法對醫療 AI 發展很重要。 PubMed DOI

Cross-Institutional Evaluation of Large Language Models for Radiology Diagnosis Extraction: A Prompt-Engineering Perspective.
跨機構評估大型語言模型於放射診斷萃取之表現：以提示工程觀點分析 J Imaging Inform Med 2025-05-09

這項研究用標準化、針對人類優化的提示語，讓大型語言模型標註六家醫院的放射科報告，結果 Llama 3.1 70b 在不同報告和機構間都很準確且一致。顯示只要設計好提示語，LLMs 在各種臨床環境下都能穩定標註。未來會再加強提示語的通用性和模型穩定性。 PubMed DOI

Generative Large Language Models Trained for Detecting Errors in Radiology Reports.
用於偵測放射科報告錯誤的生成式大型語言模型 Radiology 2025-05-20

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現，發現經過微調的 Llama-3-70B-Instruct 模型最準確，F1 分數約 0.75–0.83。實測也證實，這模型能有效協助醫師找出報告錯誤，顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

Evaluating large language models for information extraction from gastroscopy and colonoscopy reports through multi-strategy prompting.
透過多策略提示評估大型語言模型於胃鏡與大腸鏡報告資訊擷取的表現 J Biomed Inform 2025-06-12

這項研究評估多種大型語言模型，利用提示工程從胃鏡和大腸鏡報告中擷取結構化資訊。結果顯示，大型且專業化的模型在基本資訊擷取表現最好，但遇到複雜推理時仍有限制。少樣本學習對部分模型有幫助，顯示LLMs自動化醫療文本分析有潛力，但還需改進。 PubMed DOI

Data extraction from free-text stroke CT reports using GPT-4o and Llama-3.3-70B: the impact of annotation guidelines.
使用 GPT-4o 與 Llama-3.3-70B 從自由文本中風中風電腦斷層報告擷取資料：標註指引的影響 Eur Radiol Exp 2025-06-22

這項研究發現，給大型語言模型（如GPT-4o和Llama-3.3-70B）明確的標註指引，能大幅提升它們從中風CT報告擷取重點的準確度，其中GPT-4o表現最好。結果強調，清楚的指引對提升醫療自動化資料擷取很重要。 PubMed DOI

原始文章

站上相關主題文章列表