原始文章

這項研究發現,ChatGPT-4在MRI測量足底筋膜厚度時,準確度和穩定性都遠不如有經驗的臨床醫師,尤其在筋膜較薄時誤差更大。AI模型的可靠度明顯較低,目前還不適合用於臨床醫學影像分析。 PubMed DOI


站上相關主題文章列表

這項研究探討了在足踝外科領域中,醫生能否區分由人工智慧(特別是ChatGPT 3.0)生成的摘要與人類撰寫的摘要。研究中,九位醫生參加了盲測,結果顯示他們的準確率僅為50.5%,幾乎等同於隨機猜測。評審者的經驗和對人工智慧的熟悉度對準確性影響不大,且評審者之間的可靠性隨時間下降。這顯示人工智慧生成的摘要與人類撰寫的相似度高,讓識別變得困難。 PubMed DOI

這項研究評估了ChatGPT-4在處理足部和踝部病變的診斷能力,提供了八個臨床案例,並由三位專科骨科醫生進行評分。結果顯示,ChatGPT-4的平均得分為22.0分(滿分25分),對Morton神經瘤的案例得分最高(24.7分),而腓骨肌腱撕裂的案例得分最低(16.3分)。雖然它在診斷和治療建議上表現優異,但在提供全面資訊和替代治療選項方面仍有不足。不過,它並未提出虛構的治療方案,顯示出其可靠性。總體來看,ChatGPT-4可成為醫生提供病人教育的有用工具。 PubMed DOI

這項研究探討了AI語言模型ChatGPT-o1與美國足踝外科醫師學會(ACFAS)2015至2022年間的臨床共識聲明之間的對齊情況。研究分析了9份文件中的129條聲明,結果顯示AI與專家之間的協議程度為公平(Cohen's kappa值0.29)。在踝關節炎和跟痛症的共識度達100%,但扁平足僅25%。此外,ChatGPT的內部可靠性變異,kappa值介於0.41到0.92之間。這顯示AI與專家意見之間仍有顯著差異,需進一步研究。此研究屬於四級回顧性隊列研究。 PubMed DOI

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力,並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示,ChatGPT在回聲焦點的評估上與專家一致,但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT,顯示傳統醫學訓練的重要性。結論指出,ChatGPT可作為輔助診斷工具,但無法取代人類專業知識,並建議改善AI算法以增強其臨床實用性。 PubMed DOI

這項研究發現,ChatGPT-4在診斷和建議治療足踝骨骼損傷時表現不錯,能準確給出標準答案,且不會亂編內容。不過,它在提供更深入或超出標準的醫療建議時還有不足。整體來說,對病患或非專科醫師來說,ChatGPT-4是有潛力的輔助工具,但資訊深度有限。 PubMed DOI

這項研究發現,ChatGPT-4o在判讀膝關節X光片和分級骨關節炎時,表現遠不如專業放射科醫師,準確率只有0.23,幾乎無法正確分辨不同等級。結果顯示,目前ChatGPT-4o還不適合用在這類臨床診斷,未來還需要大幅改進。 PubMed DOI

這項研究比較了ChatGPT-4o和4 Turbo在提供足底筋膜炎治療建議的表現,發現兩者在準確度和一致性上都不錯,特別是在封閉式問題和正面建議方面表現較佳。不過,根據問題類型和建議強度,兩者還是有些微差異。總結來說,ChatGPT能產生符合指引的建議,但使用時還是要小心,注意其限制。 PubMed DOI

這項研究發現,骨科住院醫師在判讀肌肉骨骼腫瘤切片的正確率(55%)明顯高於ChatGPT-4(25–33%)。兩者在某些腫瘤類型,特別是軟組織肉瘤上表現都不理想。目前ChatGPT-4還不適合獨立用於臨床診斷,未來還需要更專業的AI模型和進一步研究。 PubMed DOI

研究發現,ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時,主要診斷正確率低於人類專家(44%比87%),但若加上次要診斷,差距縮小(71%比94%)。雖然準確度還不及專家,但因為速度快又隨時可用,未來有機會成為放射科的輔助工具。 PubMed DOI

這項研究比較三種ChatGPT模型預測手腕X光骨齡和生長階段的準確度,結果都和專家評估高度一致。GPT-o1-pro骨齡預測最準,GPT-4o則在生長階段分類表現最佳。雖然還不能取代臨床判斷,但這些AI工具已展現初步評估的實用性,未來還需持續優化。 PubMed DOI