原始文章

這項研究發現,ChatGPT-4在MRI測量足底筋膜厚度時,準確度和穩定性都遠不如有經驗的臨床醫師,尤其在筋膜較薄時誤差更大。AI模型的可靠度明顯較低,目前還不適合用於臨床醫學影像分析。 PubMed DOI


站上相關主題文章列表

**引言** 人工智慧(AI)在醫療領域的應用日益普遍。本研究比較臨床醫師制定的骨折管理計畫與ChatGPT和Google Gemini生成的計畫。 **方法論** 本研究回顧70例孤立性骨折案例,排除複雜骨折和不明診斷。將臨床細節輸入AI,並比較其生成的計畫與實際文件計畫,重點在治療建議和後續策略。 **結果** Google Gemini僅有19%案例符合實際計畫,主要因過度概括和模糊性。ChatGPT則有34%符合,過度概括為主要差異。AI計畫與臨床計畫之間的差異具統計意義(p < 0.001)。 **結論** 這兩個AI工具在臨床管理計畫中顯示顯著不一致。雖然ChatGPT較接近專業知識,但兩者皆缺乏必要的臨床精確性,無法取代臨床醫師的角色。 PubMed DOI

這項研究探討了AI語言模型ChatGPT-o1與美國足踝外科醫師學會(ACFAS)2015至2022年間的臨床共識聲明之間的對齊情況。研究分析了9份文件中的129條聲明,結果顯示AI與專家之間的協議程度為公平(Cohen's kappa值0.29)。在踝關節炎和跟痛症的共識度達100%,但扁平足僅25%。此外,ChatGPT的內部可靠性變異,kappa值介於0.41到0.92之間。這顯示AI與專家意見之間仍有顯著差異,需進一步研究。此研究屬於四級回顧性隊列研究。 PubMed DOI

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力,並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示,ChatGPT在回聲焦點的評估上與專家一致,但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT,顯示傳統醫學訓練的重要性。結論指出,ChatGPT可作為輔助診斷工具,但無法取代人類專業知識,並建議改善AI算法以增強其臨床實用性。 PubMed DOI

這項研究發現,ChatGPT-4在診斷和建議治療足踝骨骼損傷時表現不錯,能準確給出標準答案,且不會亂編內容。不過,它在提供更深入或超出標準的醫療建議時還有不足。整體來說,對病患或非專科醫師來說,ChatGPT-4是有潛力的輔助工具,但資訊深度有限。 PubMed DOI

這項研究發現,ChatGPT-4o在判讀下顎智齒拔除用的全口X光片時,正確率只有38.44%,表現不夠理想。雖然回答有一定一致性,但重複性普通,對複雜影像常出錯。現階段還不適合單獨用於牙科臨床,仍需專家把關,未來還要加強AI訓練和開發。 PubMed DOI

這項研究發現,ChatGPT-4o在判讀膝關節X光片和分級骨關節炎時,表現遠不如專業放射科醫師,準確率只有0.23,幾乎無法正確分辨不同等級。結果顯示,目前ChatGPT-4o還不適合用在這類臨床診斷,未來還需要大幅改進。 PubMed DOI

這項研究比較了ChatGPT-4o和4 Turbo在提供足底筋膜炎治療建議的表現,發現兩者在準確度和一致性上都不錯,特別是在封閉式問題和正面建議方面表現較佳。不過,根據問題類型和建議強度,兩者還是有些微差異。總結來說,ChatGPT能產生符合指引的建議,但使用時還是要小心,注意其限制。 PubMed DOI

這項研究發現,骨科住院醫師在判讀肌肉骨骼腫瘤切片的正確率(55%)明顯高於ChatGPT-4(25–33%)。兩者在某些腫瘤類型,特別是軟組織肉瘤上表現都不理想。目前ChatGPT-4還不適合獨立用於臨床診斷,未來還需要更專業的AI模型和進一步研究。 PubMed DOI

研究發現,ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時,主要診斷正確率低於人類專家(44%比87%),但若加上次要診斷,差距縮小(71%比94%)。雖然準確度還不及專家,但因為速度快又隨時可用,未來有機會成為放射科的輔助工具。 PubMed DOI

這項研究比較三種ChatGPT模型預測手腕X光骨齡和生長階段的準確度,結果都和專家評估高度一致。GPT-o1-pro骨齡預測最準,GPT-4o則在生長階段分類表現最佳。雖然還不能取代臨床判斷,但這些AI工具已展現初步評估的實用性,未來還需持續優化。 PubMed DOI