原始文章

這項研究評估了ChatGPT-4.0o在放射影像定位品質的有效性,分析了30張不同關節的放射線影像。模型的任務是找出定位錯誤並提出改進建議。放射技術師根據標準對模型的回應進行1到5的評分。結果顯示,模型僅在20%的案例中正確識別所有錯誤,且最常見得分為3,表示至少識別一個錯誤,30%的影像中提供了正確建議。平均得分為2.9,顯示準確性較低,強調了教育背景和臨床經驗在放射學中的重要性。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在放射學考試中表現不錯,尤其是處理較簡單的問題。但對於較複雜的問題,表現就稍微差一些。在影像辨識、計算和概念運用上有困難,但處理臨床管理問題時表現不錯。儘管沒有特別訓練,ChatGPT展現出在放射學教育上的潛力。 PubMed DOI

研究評估了基於GPT-4結構的Chat Generative Pre-trained Transformer (ChatGPT) 在神經放射學的診斷表現,使用了《美國神經放射學雜誌》中的100個案例。ChatGPT在診斷上達到50%的準確率,不同解剖位置的準確性沒有太大差異,但在大腦中樞神經系腫瘤的案例中,準確性稍微較低。 PubMed DOI

GPT4是一個大型多功能模型,能處理文字和圖像,但在核醫學檢查方面還需進一步評估。研究指出,ChatGPT在識別檢查和示蹤劑方面表現尚可,但在描述結果或異常時有困難。"高級數據分析(測試版)"版本在大多數任務中失敗,兩個版本在多次測試中表現不一致。雖然GPT-4V(ision)對核醫學影像有潛力,但可靠性仍有限制。 PubMed DOI

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在神經放射學案例的診斷表現。結果顯示,放射科醫師的準確率比ChatGPT高。GPT-4V的ChatGPT表現更差。總結來說,ChatGPT在挑戰性案例的診斷上不如放射科醫師。 PubMed DOI

研究評估了ChatGPT-4V在解讀COVID-19、NSCLC和對照組案例的胸部CT掃描的準確性。ChatGPT-4V整體準確率為56.76%,對不同情況的敏感性和特異性有所不同。模型在所有肺葉案例中表現最佳。研究強調了AI模型在放射學中的挑戰和改進領域,呼籲加強模型以提升醫療應用的可靠性。 PubMed DOI

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示,基於GPT-4的ChatGPT準確率為43%,優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師,但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現,強調提供詳細影像描述以提高準確性。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5和GPT-4)在根據放射學轉錄生成鑑別診斷的表現。分析了339個案例,結果顯示GPT-4的準確性較高,正確診斷比例為66.1%,而GPT-3.5為53.7%。雖然GPT-4在準確性和虛構參考文獻方面表現較佳,但兩者在重複性上仍有問題。總體來看,ChatGPT在醫學上可作為有用工具,但使用時需謹慎以避免不準確性。 PubMed DOI

這項研究評估了ChatGPT-4o在放射組學質量評分(RQS)方面的有效性,並與人類專家進行比較。研究納入了52篇2023至2024年發表的文章,結果顯示ChatGPT-4o和專家的中位RQS均為14.5,且無顯著差異。ChatGPT-4o的評分可靠性高,內部信度為0.905,且評估速度遠快於專家(每篇2.9-3.5分鐘對比13.9分鐘)。總結來說,ChatGPT-4o在放射組學研究質量評估上是有效且可靠的,未來可望成為快速自動化的評估工具。 PubMed DOI

這項研究評估了ChatGPT-4 Vision在解讀臨床影像(如X光、CT、MRI等)的表現。分析了206個影像研究,結果顯示提供臨床上下文能顯著提高診斷準確率,從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時,準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%,但GPT-4V仍虛構了258個發現,並錯誤識別了65個案例。總體來看,GPT-4V目前無法可靠解讀放射影像,需進一步改進以確保病人安全。 PubMed DOI

這項研究評估了ChatGPT-4和ChatGPT-4o在乳腺癌影像報告及BI-RADS分數生成的有效性。研究使用了77張來自radiopaedia.org的影像,包含乳房X光和超音波,並在不同會議中進行評估以避免偏見。結果顯示,兩個模型在BI-RADS評分的準確率為66.2%,在BI-RADS 5案例中表現最佳(ChatGPT-4為84.4%,ChatGPT-4o為88.9%)。不過,它們在BI-RADS 1-3案例中常常給予過高的嚴重性評分,顯示目前大型語言模型在乳腺影像評估上的局限性,需進一步研究才能整合進臨床實踐。 PubMed DOI