原始文章

這項研究評估了ChatGPT-4.0o在放射影像定位品質的有效性,分析了30張不同關節的放射線影像。模型的任務是找出定位錯誤並提出改進建議。放射技術師根據標準對模型的回應進行1到5的評分。結果顯示,模型僅在20%的案例中正確識別所有錯誤,且最常見得分為3,表示至少識別一個錯誤,30%的影像中提供了正確建議。平均得分為2.9,顯示準確性較低,強調了教育背景和臨床經驗在放射學中的重要性。 PubMed DOI


站上相關主題文章列表

GPT4是一個大型多功能模型,能處理文字和圖像,但在核醫學檢查方面還需進一步評估。研究指出,ChatGPT在識別檢查和示蹤劑方面表現尚可,但在描述結果或異常時有困難。"高級數據分析(測試版)"版本在大多數任務中失敗,兩個版本在多次測試中表現不一致。雖然GPT-4V(ision)對核醫學影像有潛力,但可靠性仍有限制。 PubMed DOI

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在神經放射學案例的診斷表現。結果顯示,放射科醫師的準確率比ChatGPT高。GPT-4V的ChatGPT表現更差。總結來說,ChatGPT在挑戰性案例的診斷上不如放射科醫師。 PubMed DOI

研究評估了ChatGPT-4V在解讀COVID-19、NSCLC和對照組案例的胸部CT掃描的準確性。ChatGPT-4V整體準確率為56.76%,對不同情況的敏感性和特異性有所不同。模型在所有肺葉案例中表現最佳。研究強調了AI模型在放射學中的挑戰和改進領域,呼籲加強模型以提升醫療應用的可靠性。 PubMed DOI

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示,基於GPT-4的ChatGPT準確率為43%,優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師,但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現,強調提供詳細影像描述以提高準確性。 PubMed DOI

這項研究評估了ChatGPT-4o在放射組學質量評分(RQS)方面的有效性,並與人類專家進行比較。研究納入了52篇2023至2024年發表的文章,結果顯示ChatGPT-4o和專家的中位RQS均為14.5,且無顯著差異。ChatGPT-4o的評分可靠性高,內部信度為0.905,且評估速度遠快於專家(每篇2.9-3.5分鐘對比13.9分鐘)。總結來說,ChatGPT-4o在放射組學研究質量評估上是有效且可靠的,未來可望成為快速自動化的評估工具。 PubMed DOI

這項研究評估了ChatGPT-4和ChatGPT-4o在乳腺癌影像報告及BI-RADS分數生成的有效性。研究使用了77張來自radiopaedia.org的影像,包含乳房X光和超音波,並在不同會議中進行評估以避免偏見。結果顯示,兩個模型在BI-RADS評分的準確率為66.2%,在BI-RADS 5案例中表現最佳(ChatGPT-4為84.4%,ChatGPT-4o為88.9%)。不過,它們在BI-RADS 1-3案例中常常給予過高的嚴重性評分,顯示目前大型語言模型在乳腺影像評估上的局限性,需進一步研究才能整合進臨床實踐。 PubMed DOI

這項研究評估了ChatGPT-4視覺版(GPT-4V)在解讀醫學影像及處理骨科創傷案例的表現。研究分析了十個來自OrthoBullets的熱門案例,並由四位專科醫生對AI的回應進行評分。結果顯示,GPT-4V在影像回應的平均得分為3.46,準確性和可信度較低,分別為3.28和3.15;而在管理問題上得分較高(3.76),治療問題表現最佳(4.04)。結論指出,GPT-4V作為教育工具有潛力,但影像解讀能力仍不及經驗豐富的醫生。 PubMed DOI

這項研究評估了ChatGPT在泌尿科醫學影像解讀的有效性,特別是CT和MRI影像。結果顯示,ChatGPT在14%的CT和28%的MRI案例中準確識別首要診斷,雖然無顯著差異,但加入器官指導後,CT影像的準確率提升了18%。整體來看,雖然ChatGPT的初步有效性有限,但在用戶指導下,其表現可顯著改善,顯示AI在臨床應用中的潛力與限制。 PubMed DOI

最近,自然語言處理(NLP)在醫療領域的進展顯著,特別是在數據分析和診斷方面。OpenAI的ChatGPT 4.0被評估在胸部影像診斷的表現,整體準確率達84.9%。它在術語和診斷徵象上表現優異,重症監護和正常解剖的準確率分別為90%和80%。在病理問題上,平均準確率為89.1%,但在某些疾病如肺癌的表現較差。總體來看,ChatGPT 4.0顯示出潛力,但仍需進一步研究以提升其臨床應用的可靠性。 PubMed DOI

這項研究探討了一個基於GPT-4的大型語言模型(LLM)在評估肌肉骨骼MRI掃描請求的有效性,特別針對放射學領域。這個模型結合了來自33項美國放射學會的適當性標準,並在70個虛構案例上測試。結果顯示,優化後的LLM準確率達92.86%,明顯優於基準模型和標準GPT-4,且在處理臨床資訊不足的案例時特別有效。這顯示出其在放射學臨床決策支持中的潛力。 PubMed DOI