原始文章

這項研究評估了GPT-4 Vision (GPT4V)在識別多發性硬化症 (MS) MRI掃描的表現,並與U-Net和Vision Transformer (ViT)進行比較。研究分析了170名MS患者的496個MRI影像。結果顯示,U-Net和ViT的準確率均為94%,而GPT4V為85%。雖然GPT4V在可及性和易用性上有潛力,但由於錯誤分類和過於謹慎,尚不適合臨床應用。研究強調在醫療AI工具使用上需謹慎,特別是對於非專業使用者。 PubMed DOI


站上相關主題文章列表

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示,基於GPT-4的ChatGPT準確率為43%,優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師,但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現,強調提供詳細影像描述以提高準確性。 PubMed DOI

這項研究評估了具備視覺功能的GPT-4(GPT-4V)在放射科考試中的表現,涵蓋文字和影像問題。研究期間為2023年9月至2024年3月,分析了386道美國放射學會的退役問題。結果顯示,GPT-4V正確回答65.3%的問題,其中文字問題得分81.5%,而影像問題僅47.8%。研究還發現,思維鏈提示對文字問題的表現較佳,但影像問題的提示效果差異不大。總體來看,GPT-4V在文字問題上表現優異,但在影像解讀上則較為薄弱。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究評估了ChatGPT-4 Vision在解讀臨床影像(如X光、CT、MRI等)的表現。分析了206個影像研究,結果顯示提供臨床上下文能顯著提高診斷準確率,從8.3%提升至29.1%和63.6%。但在30天和90天後重新評估時,準確率下降多達30%。雖然建議診斷與實際發現匹配率高達92.7%,但GPT-4V仍虛構了258個發現,並錯誤識別了65個案例。總體來看,GPT-4V目前無法可靠解讀放射影像,需進一步改進以確保病人安全。 PubMed DOI

這項研究探討了GPT-4的進階數據分析(ADA)套件在自動創建機器學習模型方面的表現,目的是預測膠質瘤的分子類型。研究使用了615名新診斷患者的MRI掃描數據,並比較了GPT-4與傳統手工模型的準確性。結果顯示,GPT-4在某些數據集上表現優異,但在不同膠質瘤類型的預測上仍面臨挑戰,特別是在IDH突變類型的準確性上。整體而言,GPT-4展現了自動開發機器學習模型的潛力,但也顯示出處理不平衡數據集的困難。 PubMed DOI

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64,結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好,準確率達0.88,對腺癌檢測的敏感性也很高。整體來看,GPT-4的表現與病理住院醫師相當,顯示其作為輔助工具的潛力。 PubMed DOI

最近的研究顯示,GPT-4V在醫學影像的解讀上有不錯的潛力,尤其在美國醫學執照考試中表現優異,Step 1得分84.2%、Step 2 85.7%、Step 3 88.9%。不過,雖然正確答案的解釋質量接近人類專家,但錯誤答案的解釋常常不準確,顯示出明顯的弱點。模型在處理複雜案例時也面臨挑戰,需要多次提示才能給出準確解釋。因此,在將GPT-4V應用於臨床前,仍需進一步評估其影像解釋能力。 PubMed DOI

這項研究評估了ChatGPT-4o在識別MRI影像及診斷腦腫瘤的表現,並與經驗豐富的放射科醫師進行比較。研究涵蓋46名腦腫瘤患者的術前MRI影像。結果顯示,ChatGPT-4o識別病變的準確率為95.7%,但在定位病變和區分腦外、腦內病變方面表現不佳。其診斷成功率僅為56.8%,遠低於放射科醫師的90.9-93.2%。雖然ChatGPT-4o在某些特徵識別上表現良好,但在診斷上仍需改進,未來有潛力成為放射科醫師的輔助工具。 PubMed DOI

這項研究評估了ChatGPT-4在解讀視野測試的有效性,對於診斷青光眼等眼科疾病非常重要。分析了30份視野測試報告,結果顯示ChatGPT-4在識別測試名稱、模式和全球視野指數方面表現優異,準確率分別為100%、90%和96.7%。不過,在解讀偏差圖和灰階圖的準確率較低,分別為66.7%和30%。此外,正確分類測試為「正常」或提出診斷建議的成功率僅有33.3%。這顯示出ChatGPT-4在數據解讀上有潛力,但在複雜的視覺解釋和診斷建議上仍有待加強。 PubMed DOI

這項研究探討了一個基於GPT-4的大型語言模型(LLM)在評估肌肉骨骼MRI掃描請求的有效性,特別針對放射學領域。這個模型結合了來自33項美國放射學會的適當性標準,並在70個虛構案例上測試。結果顯示,優化後的LLM準確率達92.86%,明顯優於基準模型和標準GPT-4,且在處理臨床資訊不足的案例時特別有效。這顯示出其在放射學臨床決策支持中的潛力。 PubMed DOI