From Revisions to Insights: Converting Radiology Report Revisions into Actionable Educational Feedback Using Generative AI Models.
從修訂到洞察：利用生成式 AI 模型將放射學報告修訂轉化為可行的教育反饋。 J Imaging Inform Med 2024-08-19

這項研究顯示生成式人工智慧，特別是OpenAI的GPT-4 Turbo API，在提升放射學訓練方面的潛力。研究發現，這個AI模型能檢測到的差異明顯多於專業放射科醫師，顯示其在傳統審查中可能被忽略的改進空間。雖然AI在差異檢測上表現優異，但在評分一致性上仍有改進空間。生成的教學要點在85%的案例中被認為適當，顯示其教育價值。未來研究可著重於提高模型準確性及評分者一致性，並探討AI反饋對實習生的長期影響。 PubMed DOI

Evaluating the Role of GPT-4 and GPT-4o in the Detectability of Chest Radiography Reports Requiring Further Assessment.
評估 GPT-4 和 GPT-4o 在需要進一步評估的胸部放射線報告可檢測性中的角色。 Cureus 2025-01-13

這項研究評估了GPT-4和GPT-4o在識別需進一步評估的胸部放射線報告的效果。研究分析了來自NIH的100個案例，結果顯示GPT-4o在敏感性、準確性和陰性預測值上均優於GPT-4，而GPT-4在特異性和陽性預測值上則表現更佳。總體來看，GPT-4o在臨床應用中顯示出良好的潛力。 PubMed DOI

CXR-LLaVA: a multimodal large language model for interpreting chest X-ray images.
CXR-LLaVA：一種用於解讀胸部 X 光影像的多模態大型語言模型。 Eur Radiol 2025-01-15

這項研究開發了一個名為CXR-LLaVA的開源多模態大型語言模型，專門用來解讀胸部X光影像並生成放射科報告。研究人員在包含374,881張標記影像的數據集上預訓練視覺變壓器，並結合大型語言模型進行微調，使用217,699份報告來提升生成準確性。CXR-LLaVA在內部測試中達到平均F1分數0.81，並在外部測試中為0.56，顯示出超越其他先進模型的潛力。該模型的報告準確率為72.7%，顯示出自動報告的可行性，並強調開源對進一步研究的重要性。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Automated Radiology Report Labeling in Chest X-Ray Pathologies: Development and Evaluation of a Large Language Model Framework.
胸部 X 光病理的自動放射學報告標籤：大型語言模型框架的開發與評估。 JMIR Med Inform 2025-03-28

這項研究評估了一種基於GPT的大型語言模型（LLM）在標註非結構化放射學報告的效果，並與現有的CheXbert和CheXpert進行比較，使用了MIMIC-CXR這個大型胸部X光數據集。結果顯示，LLM的平均F1分數為0.9014，超過CheXpert（0.8864），接近CheXbert（0.9047）。在處理較長、複雜的病理描述時，LLM表現尤為優異。整體來看，LLM是傳統BERT方法的有力替代，提供更好的上下文理解，並減少對特徵工程的需求。 PubMed DOI

A clinically accessible small multimodal radiology model and evaluation metric for chest X-ray findings.
一個臨床可及的小型多模態放射學模型及胸部 X 光發現的評估指標。 Nat Commun 2025-04-01

大型基礎模型在生物醫學領域有潛力，但在臨床應用上面臨挑戰，如性能差距和高成本。本研究展示了一個開源的小型多模態模型，透過胸部X光影像生成診斷結果，解決放射學的問題。研究團隊訓練了697,000對影像-文本對，開發了專門的胸部X光編碼器，並與預訓練的語言模型整合。為了評估模型的準確性，團隊創建了CheXprompt，並用於基準測試，LLaVA-Rad模型表現優於一些大型模型。雖然尚未適合實時臨床使用，但這代表了在放射學中可臨床應用的進展。 PubMed DOI

Evaluating a large language model's accuracy in chest X-ray interpretation for acute thoracic conditions.
評估大型語言模型在急性胸部疾病胸部 X 光解讀中的準確性。 Am J Emerg Med 2025-04-02

這項研究探討了使用ChatGPT 4.0搭配「X-Ray Interpreter」來解讀急診胸部X光片。分析了1,400張來自NIH的影像，涵蓋七種病理類別。ChatGPT在識別正常X光片方面表現優異，敏感度達98.9%，特異度93.9%。對於肺炎和氣胸的診斷表現較好，但在肺不張和肺氣腫上則較差。總體來看，ChatGPT作為輔助診斷工具顯示潛力，但對於更細微的診斷仍需改進，未來可與專業影像識別模型整合以提升能力。 PubMed DOI

The Accuracy of ChatGPT-4o in Interpreting Chest and Abdominal X-Ray Images.
ChatGPT-4o 在解讀胸部與腹部 X 光影像的準確性 J Pers Med 2025-05-27

這項研究發現，ChatGPT-4o在判讀X光片時，整體正確率約69%，腹部X光片表現比胸部好。它對常見異常如肺水腫、腸阻塞較準確，但對氣胸、肋骨骨折較弱。雖然AI回覆都算安全，但目前準確率還不夠高，還需改進才能真正成為臨床輔助工具。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

GPT-4 vs. Radiologists: who advances mediastinal tumor classification better across report quality levels? A cohort study.
GPT-4 vs. 放射科醫師：誰能在不同報告品質層級下更好地推進縱膈腫瘤分類？一項世代研究 Int J Surg 2025-08-11

這項研究發現，GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%，跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時，GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI

原始文章

站上相關主題文章列表