Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

The use of large language models in detecting Chinese ultrasound report errors.
大型語言模型在檢測中文超聲報告錯誤中的應用。 NPJ Digit Med 2025-01-28

這項回顧性研究探討大型語言模型（LLMs）在提升中文超音波報告準確性上的效果。研究分析了2024年1月至4月期間三家醫院的400份報告，發現243個錯誤，並將其分為六類。研究評估了三個版本的GPT和Claude 3.5 Sonnet在零樣本和少樣本情境下的表現。結果顯示，Claude 3.5 Sonnet在零樣本設定中的錯誤檢測率最高，達52.3%。此外，LLMs處理報告的速度也明顯快於放射科醫生，顯示其在提升報告準確性方面的潛力。 PubMed DOI

Large language models in methodological quality evaluation of radiomics research based on METRICS: ChatGPT vs NotebookLM vs radiologist.
基於 METRICS 的放射組學研究方法學質量評估中的大型語言模型：ChatGPT 與 NotebookLM 與放射科醫生的比較。 Eur J Radiol 2025-02-12

這項研究評估了大型語言模型（LLMs），特別是ChatGPT-4和NotebookLM，使用METhodological RadiomICs Score（METRICS）工具來檢視放射組學研究的方法學質量。分析了2024年發表的48篇開放存取文章，結果顯示ChatGPT-4的中位數得分為79.5%，優於NotebookLM（61.6%）和人類專家（69.0%），且差異顯著。雖然LLMs在評估速度上較快，但仍需改進，以便更接近人類專家的評估結果。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Large Language Models in Summarizing Radiology Report Impressions for Lung Cancer in Chinese: Evaluation Study.
大型語言模型在總結肺癌放射科報告印象中的應用：評估研究。 J Med Internet Res 2025-04-03

這項研究評估了九個大型語言模型（LLMs）在總結中國放射科報告中對肺癌的印象表現。研究發現，ERNIE Bot、Tongyi Qianwen 和 Claude 在生成 CT、PET-CT 和超音波報告的印象方面表現最佳。雖然生成的印象通常完整且正確，但在簡潔性和真實性上仍有不足，且與放射科醫生撰寫的印象相比，仍存在顯著差距。整體來看，現有的 LLMs 雖能生成高完整性和正確性的報告，但尚無法完全取代放射科醫生。 PubMed DOI

Performance of large language models for CAD-RADS 2.0 classification derived from cardiac CT reports.
大型語言模型在心臟CT報告中對CAD-RADS 2.0分類的表現。 J Cardiovasc Comput Tomogr 2025-04-10

這項研究評估大型語言模型（LLMs）自動生成CAD-RADS 2.0分數的能力，對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告，使用了多種先進的LLMs，包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示，GPT-4o和Llama3 70b的準確率最高，分別為93%和92.5%。這些發現顯示，增強上下文學習的模型能有效生成CAD-RADS 2.0分數，提高心臟CT報告的效率與一致性，且開源模型在數據安全上也具優勢。 PubMed DOI

Large Language Models for Diagnosing Focal Liver Lesions From CT/MRI Reports: A Comparative Study With Radiologists.
利用大型語言模型從CT/MRI報告診斷肝臟局灶性病變：與放射科醫師的比較研究 Liver Int 2025-05-10

這項研究發現，ChatGPT-4o在診斷肝臟局部病灶時，表現大致和資淺放射科醫師差不多，但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程，也沒明顯提升醫師的診斷表現。總結來說，目前大型語言模型對診斷這類疾病的幫助有限，準確度還有待加強。 PubMed DOI

Generative Large Language Models Trained for Detecting Errors in Radiology Reports.
用於偵測放射科報告錯誤的生成式大型語言模型 Radiology 2025-05-20

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現，發現經過微調的 Llama-3-70B-Instruct 模型最準確，F1 分數約 0.75–0.83。實測也證實，這模型能有效協助醫師找出報告錯誤，顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

Integrating Large language models into radiology workflow: Impact of generating personalized report templates from summary.
將大型語言模型整合至放射科工作流程：從摘要生成個人化報告模板的影響 Eur J Radiol 2025-05-28

這項研究發現，像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告，速度比傳統方式快，品質也差不多。雖然大多數錯誤跟模板有關，重大臨床錯誤很少見，但還是建議要有人工審查，確保報告正確無誤。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

原始文章

站上相關主題文章列表