原始文章

本研究探討ChatGPT-4o在分析膝關節骨關節炎(OA)X光片的能力,並評估其準確性。117張X光片由兩位骨科醫生和ChatGPT-4o分析,使用多種分級系統。結果顯示,ChatGPT-4o的識別率達100%,但詳細分級準確性僅35%,遠低於醫生的89.6%。此外,ChatGPT-4o在嚴重病例中常低估OA程度,且其評分一致性較差。雖然能快速識別,但在臨床應用上仍需提升分級準確性。未來研究應聚焦於改善這方面的表現。 PubMed DOI


站上相關主題文章列表

研究比較了基於GPT-4的ChatGPT、基於GPT-4V的ChatGPT和放射科醫師在106個案例的肌肉骨骼放射學診斷準確性。結果顯示,基於GPT-4的ChatGPT準確率為43%,優於基於GPT-4V的ChatGPT的8%。放射科醫師的準確率分別為41%和53%。ChatGPT表現接近住院醫師,但不及認證放射科醫師。放射科醫師需了解ChatGPT的診斷表現,強調提供詳細影像描述以提高準確性。 PubMed DOI

這項研究評估了GPT-4在解讀美國和中國骨關節炎治療指導方針的能力,以及在骨科病例診斷和管理上的有效性。研究結果顯示,GPT-4對指導方針的正確匹配率為46.4%,準確度得分為4.3±1.6,完整性得分為2.8±0.6。在模擬案例中,超過88%的回應被認為是全面的。總體來看,GPT-4在骨科實踐和病人教育上有潛力,但在臨床應用上仍需進一步驗證。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在僅依據患者報告的問卷數據來檢測髖關節或膝關節骨關節炎(OA)的診斷能力。115名患者填寫了有關症狀和病史的問卷,研究分析了多個LLMs的表現,結果顯示GPT-4o的診斷敏感性最高,達92.3%。雖然GPT-4的不同版本之間有中等一致性,但某些模型如Llama-3.1的準確性較低。研究強調醫療監督的重要性,並呼籲進一步研究以提升LLM的診斷能力。 PubMed DOI

本研究探討生成預訓練變壓器(ChatGPT)在放射影像中分類股骨轉子周圍骨折的準確性。研究結果顯示,ChatGPT能根據修訂的AO/OTA分類系統將骨折分為穩定(A1)和不穩定(A2),其分類一致性(κ = 0.420)與骨科醫生相似,顯示中等可靠性。這表明ChatGPT可有效整合進臨床工作流程,並在數據收集上需求較低,對醫療應用具潛力。 PubMed DOI

這項研究探討了一個基於GPT-4的大型語言模型(LLM)在評估肌肉骨骼MRI掃描請求的有效性,特別針對放射學領域。這個模型結合了來自33項美國放射學會的適當性標準,並在70個虛構案例上測試。結果顯示,優化後的LLM準確率達92.86%,明顯優於基準模型和標準GPT-4,且在處理臨床資訊不足的案例時特別有效。這顯示出其在放射學臨床決策支持中的潛力。 PubMed DOI

**重點整理:** GPT-4o在偵測膝關節骨關節炎時表現出高敏感度(能夠準確找出有病變的膝蓋),但特異性較低(常常把健康的膝蓋誤判為有病變);因此,無論是病患還是醫師,在依賴GPT-4o進行膝關節骨關節炎影像分析時都要特別小心。 PubMed DOI

這項研究發現,ChatGPT-4o在判讀膝關節X光片和分級骨關節炎時,表現遠不如專業放射科醫師,準確率只有0.23,幾乎無法正確分辨不同等級。結果顯示,目前ChatGPT-4o還不適合用在這類臨床診斷,未來還需要大幅改進。 PubMed DOI

這項研究發現,GPT-4o自動產生的膝關節MRI報告,不僅比GPT-4o-mini更準確,還能幾乎完美預測骨關節炎嚴重程度。骨科醫師也認為這些AI報告更好用、審閱更快。整體來說,GPT-4o有機會幫助醫師減少文書工作,提升臨床效率。 PubMed DOI

研究發現,ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時,主要診斷正確率低於人類專家(44%比87%),但若加上次要診斷,差距縮小(71%比94%)。雖然準確度還不及專家,但因為速度快又隨時可用,未來有機會成為放射科的輔助工具。 PubMed DOI

這項研究發現,ChatGPT-4在回答關節置換相關問題時,正確率只有66.9%,明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上,表現更差。雖然ChatGPT可當作學習輔助,但還無法取代專業醫師的臨床判斷,未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI