Revolution or risk?-Assessing the potential and challenges of GPT-4V in radiologic image interpretation.
革命還是風險？- 評估 GPT-4V 在放射影像解讀中的潛力與挑戰。 Eur Radiol 2024-10-18

這項研究評估了ChatGPT-4 Vision在解讀臨床影像（如X光、CT、MRI等）的表現。分析了206個影像研究，結果顯示提供臨床上下文能顯著提高診斷準確率，從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時，準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%，但GPT-4V仍虛構了258個發現，並錯誤識別了65個案例。總體來看，GPT-4V目前無法可靠解讀放射影像，需進一步改進以確保病人安全。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Optimizing Large Language Models in Radiology and Mitigating Pitfalls: Prompt Engineering and Fine-tuning.
優化放射學中的大型語言模型及減少陷阱：提示工程與微調。 Radiographics 2025-03-06

這篇文章探討大型語言模型（LLMs），特別是生成預訓練變壓器（GPTs）在醫學和放射學的影響。重點在於優化技術，如提示工程和微調，以提升模型的準確性，讓像GPT-4這樣的模型能適應特定任務。儘管這些模型潛力無窮，文章也指出實施過程中的挑戰，包括複雜性、幻覺、偏見和安全風險等問題。作者希望為放射科醫師提供LLMs的基礎知識和最佳實踐，並探討這些技術在放射學中的應用及其限制。 PubMed DOI

[Evaluating the accuracy of large language models in answering mammography screening questions in Italian and English: a study based on the Eusobi guidelines.].
「評估大型語言模型在回答意大利語和英語乳腺攝影篩檢問題的準確性：基於Eusobi指導方針的研究。」 Recenti Prog Med 2025-03-14

這項研究探討大型語言模型（LLMs），如ChatGPT、Gemini和Copilot，在乳房影像學問題上的表現。研究中，五位乳房放射科醫生提出九個乳房攝影篩檢問題，並由兩位專家評估LLMs的回答。結果顯示，兩種語言的回答平均分數相似，約在3.6到4分之間。一般問題的回答較準確，但針對特定問題，尤其是密集乳房的定義，回答常常不完整。此外，意大利語的來源引用不夠專業，顯示LLMs在提供醫療資訊上的限制。總體而言，LLMs雖能促進醫療溝通，但在專業領域的準確性仍需加強，強調AI與醫療專業人員合作的重要性。 PubMed DOI

Performance of large language models for CAD-RADS 2.0 classification derived from cardiac CT reports.
大型語言模型在心臟CT報告中對CAD-RADS 2.0分類的表現。 J Cardiovasc Comput Tomogr 2025-04-10

這項研究評估大型語言模型（LLMs）自動生成CAD-RADS 2.0分數的能力，對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告，使用了多種先進的LLMs，包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示，GPT-4o和Llama3 70b的準確率最高，分別為93%和92.5%。這些發現顯示，增強上下文學習的模型能有效生成CAD-RADS 2.0分數，提高心臟CT報告的效率與一致性，且開源模型在數據安全上也具優勢。 PubMed DOI

Can ChatGPT detect breast cancer on mammography?
ChatGPT 能夠在乳房攝影檢查中偵測乳癌嗎？ J Med Screen 2025-04-22

這項研究發現，基於ChatGPT的工具在乳房X光片找腫塊的表現還可以，但在判斷乳房密度、腫瘤大小、位置、微鈣化和淋巴結侵犯等細節時，準確度不高。跟放射科醫師的BI-RADS評分一致性也只有普通到中等。總結來說，目前這類AI還不適合用在乳癌篩檢的全面影像分析。 PubMed DOI

The Role of Large Language Models (LLMs) in Breast Imaging Today and in the Near Future.
大型語言模型（LLMs）在乳房影像學現今及近期未來的角色 J Magn Reson Imaging 2025-05-05

大型語言模型像GPT-4和Gemini在乳房影像領域很有潛力，可協助報告撰寫、診斷標準化和整合臨床指引。未來多模態能力也有望提升腫瘤分類等表現。不過，目前仍有幻覺、偏見、知識落差和隱私等挑戰。現階段LLMs只能當輔助工具，無法取代醫師，導入臨床還需嚴謹訓練和監督。 PubMed DOI

Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study.
運用大型語言模型於乳房影像報告與資料系統（BI-RADS）分級及惡性預測以提升乳房超音波診斷：回溯性研究 JMIR Med Inform 2025-06-11

這項回溯性研究發現，ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時，表現比資淺放射科醫師更好，和資深醫師差不多。它預測惡性腫瘤的準確度高（AUC 0.82，準確率80.63%，敏感度90.56%，特異度73.51%）。若把ChatGPT-4納入影像判讀流程，能進一步提升醫師診斷準確率，減少不同醫師間的判讀差異。 PubMed DOI

原始文章

站上相關主題文章列表