原始文章

這項研究發現,ChatGPT-4在診斷和建議治療足踝骨骼損傷時表現不錯,能準確給出標準答案,且不會亂編內容。不過,它在提供更深入或超出標準的醫療建議時還有不足。整體來說,對病患或非專科醫師來說,ChatGPT-4是有潛力的輔助工具,但資訊深度有限。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT 3.5和4在回答骨科考試問題的表現,使用了來自首爾國立大學醫院的160道問題,分為11個子類別。結果顯示,ChatGPT 3.5的正確率為37.5%,而ChatGPT 4提升至60.0%(p < 0.001)。大部分類別中,ChatGPT 4表現較佳,唯獨在腫瘤相關問題上不如3.5。此外,ChatGPT 4的回答不一致率顯著低於3.5(9.4%對比47.5%)。雖然ChatGPT 4在骨科考試中表現不錯,但仍需謹慎對待其不一致的回答和錯誤解釋。 PubMed DOI

2022年11月,OpenAI推出了ChatGPT,引發了對其在醫學領域有效性的討論。研究專注於ChatGPT對髕股疼痛的回答能力,並比較一般民眾、非骨科醫生及專家的評價。使用12個問題進行評估,結果顯示專家對ChatGPT的評分普遍較低,尤其在複雜問題上。雖然ChatGPT提供的資訊質量不錯,但隨著問題複雜度增加,其表現下降,顯示出人類專業知識在醫療中的重要性。 PubMed DOI

這項研究探討了人工智慧,特別是ChatGPT-4,在分析複雜臨床數據及生成合理評估和計畫的能力,特別針對骨科手術。研究聚焦於急診部門的十種常見骨折,利用患者的諮詢紀錄來提供AI所需的病史和檢查結果。結果顯示,ChatGPT-4能產出安全且合理的計畫,與多專科會議的臨床結果相符。雖然對大型語言模型的評估仍在發展中,但這項研究顯示AI在臨床決策中的潛力,未來可考慮以實際臨床結果作為基準。 PubMed DOI

這項研究評估了ChatGPT-4在回答全踝關節置換術(TAA)相關問題的表現。研究人員提出十二個常見問題,並請四位專科外科醫生評分其回答的準確性和清晰度。平均得分為1.8(滿分4分),顯示在事實性問題上表現尚可,但對於術後方案等細緻問題評分較低。外科醫生的評分差異顯著,顯示出不同的解讀和期望。這強調了針對特定臨床情境設計AI工具的必要性,以提升病人教育和資訊的準確性。 PubMed DOI

這項研究比較了ChatGPT-4o和4 Turbo在提供足底筋膜炎治療建議的表現,發現兩者在準確度和一致性上都不錯,特別是在封閉式問題和正面建議方面表現較佳。不過,根據問題類型和建議強度,兩者還是有些微差異。總結來說,ChatGPT能產生符合指引的建議,但使用時還是要小心,注意其限制。 PubMed DOI

三款主流聊天機器人(ChatGPT 4.0、Claude 2、Gemini)回答阿基里斯肌腱病變相關問題,ChatGPT 4.0「優秀」答案較多,但總分差不多。專家評分有落差,顯示標準化評估還不夠。雖然這些AI能提供不錯的醫療資訊,但臨床應用時還是要小心。 PubMed DOI

這項研究發現,ChatGPT 在回答踝關節和鎖骨骨折手術常見問題時,比 Google 更準確、內容更貼近臨床,還引用較多學術資料。結果顯示,像 ChatGPT 這類 AI 有機會提升病人獲取線上醫療資訊的品質與可靠性,未來在臨床照護上很有發展潛力。 PubMed DOI

這項研究發現,ChatGPT-o1 preview 在急診腳踝疼痛鑑別診斷上,比 ChatGPT-4 更清楚、準確,表現有顯著進步。雖然兩者表現都還不錯,但偶爾會出錯,還是需要醫師監督。AI 可以輔助急診分診,但無法完全取代臨床判斷。 PubMed DOI

這項研究測試了經過客製化訓練的ChatGPT,針對高脛骨截骨術(HTO)問題的回答能力,並以專家共識聲明為基礎。研究用10題測試AI,並由三位膝關節外科醫師評分。結果顯示,AI在正確性、相關性、清楚度和完整性方面表現都不錯,評審間一致性也高。雖然對非共識聲明的題目分數略低,但整體來說,這個AI有潛力成為外科醫師的輔助工具,也適合應用在其他醫療指引上。 PubMed DOI

這項研究發現,ChatGPT-4在回答關節置換相關問題時,正確率只有66.9%,明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上,表現更差。雖然ChatGPT可當作學習輔助,但還無法取代專業醫師的臨床判斷,未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI