From Revisions to Insights: Converting Radiology Report Revisions into Actionable Educational Feedback Using Generative AI Models.
從修訂到洞察：利用生成式 AI 模型將放射學報告修訂轉化為可行的教育反饋。 J Imaging Inform Med 2024-08-19

這項研究顯示生成式人工智慧，特別是OpenAI的GPT-4 Turbo API，在提升放射學訓練方面的潛力。研究發現，這個AI模型能檢測到的差異明顯多於專業放射科醫師，顯示其在傳統審查中可能被忽略的改進空間。雖然AI在差異檢測上表現優異，但在評分一致性上仍有改進空間。生成的教學要點在85%的案例中被認為適當，顯示其教育價值。未來研究可著重於提高模型準確性及評分者一致性，並探討AI反饋對實習生的長期影響。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Use of ChatGPT Large Language Models to Extract Details of Recommendations for Additional Imaging From Free-Text Impressions of Radiology Reports.
使用 ChatGPT 大型語言模型從放射科報告的自由文本印象中提取額外影像建議的細節。 AJR Am J Roentgenol 2025-01-29

本研究探討大型語言模型（LLMs）在從放射科報告中提取額外影像檢查建議（RAIs）的有效性。研究回顧了250份報告，確認231份包含RAIs，並使用自然語言處理算法進行分析。結果顯示，GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5，顯示出LLMs在確保影像檢查建議及時完成的潛力，可能有助於減少診斷延遲。 PubMed DOI

Optimizing Large Language Models in Radiology and Mitigating Pitfalls: Prompt Engineering and Fine-tuning.
優化放射學中的大型語言模型及減少陷阱：提示工程與微調。 Radiographics 2025-03-06

這篇文章探討大型語言模型（LLMs），特別是生成預訓練變壓器（GPTs）在醫學和放射學的影響。重點在於優化技術，如提示工程和微調，以提升模型的準確性，讓像GPT-4這樣的模型能適應特定任務。儘管這些模型潛力無窮，文章也指出實施過程中的挑戰，包括複雜性、幻覺、偏見和安全風險等問題。作者希望為放射科醫師提供LLMs的基礎知識和最佳實踐，並探討這些技術在放射學中的應用及其限制。 PubMed DOI

Evaluation of radiology residents' reporting skills using large language models: an observational study.
使用大型語言模型評估放射科住院醫師的報告技能：一項觀察性研究。 Jpn J Radiol 2025-03-08

這項研究探討大型語言模型（LLMs）在評估和修訂一年級住院醫師撰寫的放射科報告的效果，並與專業放射科醫師進行比較。分析了100份報告，根據六個準確性和完整性標準進行評估。結果顯示，GPT-4o 與人類醫師的意見一致性最高，住院醫師的報告技能在第一年內有顯著進步，尤其在前三個標準上。研究建議LLMs能有效協助住院醫師識別弱點並追蹤進展，減輕導師的工作負擔。 PubMed DOI

Large Language Models in Summarizing Radiology Report Impressions for Lung Cancer in Chinese: Evaluation Study.
大型語言模型在總結肺癌放射科報告印象中的應用：評估研究。 J Med Internet Res 2025-04-03

這項研究評估了九個大型語言模型（LLMs）在總結中國放射科報告中對肺癌的印象表現。研究發現，ERNIE Bot、Tongyi Qianwen 和 Claude 在生成 CT、PET-CT 和超音波報告的印象方面表現最佳。雖然生成的印象通常完整且正確，但在簡潔性和真實性上仍有不足，且與放射科醫生撰寫的印象相比，仍存在顯著差距。整體來看，現有的 LLMs 雖能生成高完整性和正確性的報告，但尚無法完全取代放射科醫生。 PubMed DOI

Performance of large language models for CAD-RADS 2.0 classification derived from cardiac CT reports.
大型語言模型在心臟CT報告中對CAD-RADS 2.0分類的表現。 J Cardiovasc Comput Tomogr 2025-04-10

這項研究評估大型語言模型（LLMs）自動生成CAD-RADS 2.0分數的能力，對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告，使用了多種先進的LLMs，包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示，GPT-4o和Llama3 70b的準確率最高，分別為93%和92.5%。這些發現顯示，增強上下文學習的模型能有效生成CAD-RADS 2.0分數，提高心臟CT報告的效率與一致性，且開源模型在數據安全上也具優勢。 PubMed DOI

Generative Large Language Models Trained for Detecting Errors in Radiology Reports.
用於偵測放射科報告錯誤的生成式大型語言模型 Radiology 2025-05-20

這項研究比較多種大型語言模型在偵測胸腔放射科報告錯誤的表現，發現經過微調的 Llama-3-70B-Instruct 模型最準確，F1 分數約 0.75–0.83。實測也證實，這模型能有效協助醫師找出報告錯誤，顯示微調後的生成式語言模型有助提升放射科報告校對效率與準確度。 PubMed DOI

Integrating Large language models into radiology workflow: Impact of generating personalized report templates from summary.
將大型語言模型整合至放射科工作流程：從摘要生成個人化報告模板的影響 Eur J Radiol 2025-05-28

這項研究發現，像GPT-4這類大型語言模型能把放射科醫師的摘要快速轉成完整CT報告，速度比傳統方式快，品質也差不多。雖然大多數錯誤跟模板有關，重大臨床錯誤很少見，但還是建議要有人工審查，確保報告正確無誤。 PubMed DOI

Evaluating Large Language Models for Enhancing Radiology Specialty Examination: A Comparative Study with Human Performance.
用於提升放射科專科考試的大型語言模型評估：與人類表現的比較研究 Acad Radiol 2025-05-28

這項研究發現，GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好，特別是在難題和鑑別度高的題目上，推理方式也很接近人類。結果顯示，這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

原始文章

站上相關主題文章列表