原始文章

這項研究評估了ChatGPT(3.5和4版本)在提供肩膀和肘部手術資訊的準確性,分析了114個問題。結果顯示,ChatGPT 3.5的正確率為52.3%,而ChatGPT 4則達到73.3%。雖然3.5在不穩定性類別表現較佳,但4在大多數其他類別中表現更優。兩者的表現都超過50%的熟練度,但仍無法取代臨床決策。研究建議進一步改善ChatGPT的訓練,以提升其作為醫療資訊資源的效用。 PubMed DOI


站上相關主題文章列表

研究使用ChatGPT分析肩膀穩定手術資訊,評估其準確性、品質和易讀性。人工智慧表現良好,但引用來源較不足。建議尋求醫師意見。研究強調病患在網路上尋找資訊時需謹慎。 PubMed DOI

研究發現,ChatGPT 在手部外科自我評估考題中表現一般,對文字問題回答率高於圖片問題。儘管提供額外解釋,但信心與正確性不一定成正比。總括而言,ChatGPT 表現不佳,不建議單獨依賴。在使用時應謹慎,因其仍有限制。 PubMed DOI

研究發現ChatGPT對於骨科疾病資訊回答大多準確,但治療選項和風險因素較少。建議在尋求骨科問題資訊時,專業機構如AAOS仍是較佳選擇。ChatGPT或許可提供基本資訊,但專業詳細資訊還是要向專業機構查證。 PubMed DOI

這項研究評估了ChatGPT-4在回答有關尺側韌帶(UCL)損傷的問題時的有效性,並與Google進行比較。研究發現,ChatGPT-4的學術來源比例高達90%,而Google僅50%。兩者在常見問題上有40%的重疊,但在數字回答中,只有20%的答案完全相同。ChatGPT-4的答案準確性顯著高於Google,顯示其在提供臨床相關資訊方面的潛力。不過,在完全應用於臨床前,仍需進一步驗證。 PubMed DOI

這項研究評估了ChatGPT在肩袖修復手術患者資源中的有效性,並比較了3.5和4.0版本的資訊內容與可讀性。三位外科醫生在2023年8月提出了13個常見問題,分析結果顯示兩個版本的資訊質量高,但可讀性較差,且缺乏引用影響可靠性。雖然4.0版本的可讀性優於3.5,但整體仍需改進。總之,ChatGPT提供的資訊有價值,但在可讀性和引用方面仍有待加強。 PubMed DOI

這項研究評估了ChatGPT在回答有關全肩關節置換術的病人常見問題的效果。研究者提出十個問題,並用評分系統來檢視回答的準確性和清晰度。結果顯示,平均回答質量尚可,但仍需進一步澄清,Mika分數為2.93,DISCERN分數為46.60,屬於「尚可」等級。可讀性分析顯示,回答水平達到大學畢業生程度,超過病人教育材料的理想標準。結論指出,ChatGPT可作為病人教育的輔助工具,但不應取代醫療專業人員的諮詢。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0在回答有關Tommy John手術的病人問題時的資訊品質。研究者提出了25個問題,並用可讀性指標來評估回應。結果顯示,兩個版本的回應教育水平都高於病人能理解的範圍,且ChatGPT 4.0的表現稍好,但語言複雜性可能影響病人的理解。這強調了了解AI平台限制的重要性,因為未來這些平台將更廣泛地服務公眾。 PubMed DOI

這項研究評估了ChatGPT對於常見肩部病理問題的回答準確性和完整性,包括二頭肌腱炎、旋轉袖撕裂等。三位經驗豐富的骨科醫生使用李克特量表進行評估,結果顯示ChatGPT的答案通常準確且完整,準確性分數介於5.1到5.8之間,完整性分數則在2.3到2.9之間。雖然ChatGPT可作為病患的有用資源,但仍建議病患應與醫療提供者確認線上資訊。 PubMed DOI

這項研究評估了ChatGPT在回答股骨髖臼撞擊症(FAI)及關節鏡髖關節手術相關問題的準確性,並比較了免費版(ChatGPT-3.5)和付費版(ChatGPT-4)。研究中提出十二個常見問題,由三位髖關節鏡外科醫生進行評分。結果顯示,ChatGPT-3.5的中位數準確性為2,ChatGPT-4為1.5,且兩者之間的表現差異不顯著。整體而言,兩個版本的回答大多準確,但因準確性變異及研究效能低,建議在實施時需謹慎,並進一步評估。 PubMed DOI

這項研究評估了ChatGPT對旋轉袖撕裂病人常見問題的回答能力,並比較了標準與六年級閱讀水平的回應。結果顯示,標準回應在準確性(4.7)和適當性(4.5)上優於六年級回應(3.6和3.7),且差異顯著(P < 0.001)。不過,標準回應的準確性和適當性仍低於OrthoInfo(準確性4.7對5.0,適當性4.5對5.0)。雖然標準回應較佳,但可讀性卻不如OrthoInfo。結論建議,ChatGPT不應作為病人資訊的唯一來源,但可作為骨科醫生資訊的補充。 PubMed DOI