Artificial Intelligence-Generated Editorials in Radiology: Can Expert Editors Detect Them?
放射學中人工智慧生成的社論：專家編輯能否識別它們？ AJNR Am J Neuroradiol 2024-09-17

這項研究評估了GPT-4撰寫放射學社論的能力，並與人類撰寫的社論進行比較。分析了來自八本期刊的十六篇社論，結果顯示AI撰寫的社論在評分上表現較好，但人類撰寫的文章在整體感知上仍較受青睞。編輯們在配對評估中，有82%更傾向於出版人類撰寫的文章。研究結論指出，雖然GPT-4能產出高品質文章，但編輯對人類內容的偏好依然明顯。 PubMed DOI

Revolution or risk?-Assessing the potential and challenges of GPT-4V in radiologic image interpretation.
革命還是風險？- 評估 GPT-4V 在放射影像解讀中的潛力與挑戰。 Eur Radiol 2024-10-18

這項研究評估了ChatGPT-4 Vision在解讀臨床影像（如X光、CT、MRI等）的表現。分析了206個影像研究，結果顯示提供臨床上下文能顯著提高診斷準確率，從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時，準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%，但GPT-4V仍虛構了258個發現，並錯誤識別了65個案例。總體來看，GPT-4V目前無法可靠解讀放射影像，需進一步改進以確保病人安全。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

Use of ChatGPT Large Language Models to Extract Details of Recommendations for Additional Imaging From Free-Text Impressions of Radiology Reports.
使用 ChatGPT 大型語言模型從放射科報告的自由文本印象中提取額外影像建議的細節。 AJR Am J Roentgenol 2025-01-29

本研究探討大型語言模型（LLMs）在從放射科報告中提取額外影像檢查建議（RAIs）的有效性。研究回顧了250份報告，確認231份包含RAIs，並使用自然語言處理算法進行分析。結果顯示，GPT-4在提取RAI檢查方式、身體部位和時間框架方面的準確率均優於GPT-3.5，顯示出LLMs在確保影像檢查建議及時完成的潛力，可能有助於減少診斷延遲。 PubMed DOI

Radiology Report Annotation Using Generative Large Language Models: Comparative Analysis.
使用生成大型語言模型的放射學報告註釋：比較分析。 Int J Biomed Imaging 2025-02-19

最近大型語言模型（LLMs）如GPT-3.5和GPT-4在醫療領域的應用引起關注。本研究比較了這些模型在註解放射學報告及生成胸部CT印象的表現，旨在協助醫療專業人員處理日常文檔任務。研究使用了上下文學習和檢索增強生成等方法，並透過多種指標進行評估。結果顯示，GPT-4在性能上優於GPT-3.5，且提示設計對結果影響顯著。研究建議在醫療實踐中整合這些先進模型，以提升文檔效率與準確性。 PubMed DOI

Differentiating between GPT-generated and human-written feedback for radiology residents.
區分 GPT 生成的與人類撰寫的放射科住院醫師反饋。 Curr Probl Diagn Radiol 2025-02-21

這項研究探討了GPT-3.5在為放射科住院醫師生成回饋的有效性，並與人類撰寫的評論進行比較。隨著加拿大放射科課程實施能力為基礎的醫學教育，對敘述性回饋的需求增加。研究分析了28位教職員對10位住院醫師的110條評論，發現人類撰寫的回饋通常較長且具體，而GPT生成的評論則較模糊。人類評分者的準確率為80.5%，而GPT-3.5僅50%。結果顯示，GPT-3.5尚無法達到人類回饋的具體性，未來需改進算法以提升AI回饋質量。 PubMed DOI

Artificial Intelligence for Teaching Case Curation: Evaluating Model Performance on Imaging Report Discrepancies.
人工智慧在教學案例策展中的應用：評估模型在影像報告差異上的表現。 Acad Radiol 2025-03-09

這項研究探討利用大型語言模型（LLM）來識別放射學教學案例的可行性，結果顯示微調後的RadBERT模型在識別差異方面表現優異，整體準確率達90.5%。隨著差異分數提高，模型的敏感性也顯著改善，特別是在重大差異的識別上。研究還與其他模型進行比較，增強了結果的可靠性。雖然結果令人鼓舞，但實施時需考慮整合流程及用戶培訓。總體而言，這項研究顯示LLM在放射學教育中的潛力，未來應持續關注實際應用與評估。 PubMed DOI

Generative pre-trained transformer 4o (GPT-4o) in solving text-based multiple response questions for European Diploma in Radiology (EDiR): a comparative study with radiologists.
GPT-4o 在解決歐洲放射學文憑 (EDiR) 的文本多重回應問題中的應用：與放射科醫師的比較研究。 Insights Imaging 2025-03-22

這項研究評估了GPT-4o在回答歐洲放射學文憑考試的表現，並與人類考生進行比較。2024年10月，42名考生與26名使用GPT-4o的醫學生比較，結果顯示GPT-4o平均得分82.1%，遠高於考生的49.4%（p < 0.0001）。GPT-4o在放射學各子專科的真陽性率較高，假陽性率較低，僅在資訊學方面表現不佳。GPT-4o的回答一致性接近完美，而考生則中等。調查顯示參與者普遍使用複製和粘貼功能，73%的人尋求澄清。總體而言，GPT-4o在低階問題上表現優於人類考生，顯示其潛力。未來需進一步研究其在不同問題類型和考生背景中的有效性。 PubMed DOI

Diagnostic Accuracy and Clinical Value of a Domain-specific Multimodal Generative AI Model for Chest Radiograph Report Generation.
胸部放射線影像報告生成的領域特定多模態生成AI模型的診斷準確性和臨床價值。 Radiology 2025-03-25

這項研究探討了一個專門的多模態生成式人工智慧模型在胸部X光片解讀上的影響，評估其診斷準確性和臨床價值。該模型基於42家醫院18年的X光片報告數據訓練，並在多個公共數據集上測試。主要發現包括： - 模型對氣胸和皮下氣腫的檢測敏感度分別為95.3%和92.6%。 - 報告接受率：人工智慧模型70.5%、放射科醫師73.3%、GPT-4Vision僅29.6%。 - 人工智慧模型的報告獲得最高一致性和質量評分，顯示其可靠性優於GPT-4Vision。總結來說，這項研究顯示專門的人工智慧模型在放射學診斷中具備顯著潛力。 PubMed DOI

GPT-4 vs. Radiologists: who advances mediastinal tumor classification better across report quality levels? A cohort study.
GPT-4 vs. 放射科醫師：誰能在不同報告品質層級下更好地推進縱膈腫瘤分類？一項世代研究 Int J Surg 2025-08-11

這項研究發現，GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%，跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時，GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI

原始文章

站上相關主題文章列表