Evaluating the Evolution of ChatGPT as an Information Resource in Shoulder and Elbow Surgery.
評估 ChatGPT 作為肩膀和肘部外科資訊資源的演變。 Orthopedics 2025-01-29

這項研究評估了ChatGPT（3.5和4版本）在提供肩膀和肘部手術資訊的準確性，分析了114個問題。結果顯示，ChatGPT 3.5的正確率為52.3%，而ChatGPT 4則達到73.3%。雖然3.5在不穩定性類別表現較佳，但4在大多數其他類別中表現更優。兩者的表現都超過50%的熟練度，但仍無法取代臨床決策。研究建議進一步改善ChatGPT的訓練，以提升其作為醫療資訊資源的效用。 PubMed DOI

Assessing ChatGPT Responses to Frequently Asked Questions Regarding Pediatric Supracondylar Humerus Fractures.
評估 ChatGPT 對於小兒肱骨上髁骨折常見問題的回答。 J Pediatr Orthop 2025-02-07

這項研究評估了ChatGPT在回答小兒肱骨上髁骨折相關問題的效果。研究中提出七個常見問題，並根據回答的清晰度和準確性進行分類。結果顯示，四個回答雖然滿意，但仍需澄清；三個則不滿意，缺乏準確性和清晰度。沒有任何回答被評為優秀。研究指出，ChatGPT提供的資訊雖有幫助，但通常需要進一步澄清，特別是在治療方案上。因此，建議家長應諮詢醫療專業人員以獲得準確指導。這項評估屬於五級專家意見。 PubMed DOI

ChatGPT 4.0's efficacy in the self-diagnosis of non-traumatic hand conditions.
ChatGPT 4.0 在非創傷性手部疾病自我診斷中的效能。 J Hand Microsurg 2025-02-26

這項研究探討了ChatGPT 4.0作為手部疾病初步診斷工具的有效性，涵蓋了觸發指、杜普伊特氏攣縮、腕管症候群等疾病。結果顯示，GPT-4.0對大多數疾病的診斷準確率超過95%，但拇指掌腕關節骨關節炎的準確率僅60%。在97%的案例中，GPT-4.0建議患者尋求醫療協助。研究也分析了其使用的術語，發現某些疾病之間有重疊。總體來看，GPT-4.0作為診斷輔助工具有潛力，但仍需進一步研究以提升準確性。 PubMed DOI

Evaluating if ChatGPT Can Answer Common Patient Questions Compared With OrthoInfo Regarding Rotator Cuff Tears.
評估 ChatGPT 是否能夠回答有關肩袖撕裂的常見病人問題，並與 OrthoInfo 進行比較。 J Am Acad Orthop Surg Glob Res Rev 2025-03-13

這項研究評估了ChatGPT對旋轉袖撕裂病人常見問題的回答能力，並比較了標準與六年級閱讀水平的回應。結果顯示，標準回應在準確性（4.7）和適當性（4.5）上優於六年級回應（3.6和3.7），且差異顯著（P < 0.001）。不過，標準回應的準確性和適當性仍低於OrthoInfo（準確性4.7對5.0，適當性4.5對5.0）。雖然標準回應較佳，但可讀性卻不如OrthoInfo。結論建議，ChatGPT不應作為病人資訊的唯一來源，但可作為骨科醫生資訊的補充。 PubMed DOI

Breaking Bones, Breaking Barriers: ChatGPT, DeepSeek, and Gemini in Hand Fracture Management.
打破骨頭，打破障礙：ChatGPT、DeepSeek 和 Gemini 在手部骨折管理中的應用。 J Clin Med 2025-03-27

這項研究評估了三個人工智慧模型—ChatGPT-4o、DeepSeek-V3 和 Gemini 1.5—在手部骨折診斷與治療建議的有效性，並與經驗豐富的外科醫生進行比較。結果顯示，ChatGPT-4o的準確率最高，但精確度較低；DeepSeek-V3表現中等，偶爾漏掉正確方案；而Gemini 1.5則表現不佳。結論指出，雖然AI能增強臨床流程，但在複雜案例中仍無法取代人類專業，且需解決倫理問題才能廣泛應用。 PubMed DOI

Assessing the quality of ChatGPT's responses to commonly asked questions about trigger finger treatment.
評估 ChatGPT 對於常見的 trigger finger 治療問題的回答質量。 Ulus Travma Acil Cerrahi Derg 2025-04-11

這項研究評估了ChatGPT在回答有關觸發指的病人問題的有效性，目的是改善病人教育並探討人工智慧的角色。研究人員整理了十個常見問題，並根據《美國醫學會雜誌》（JAMA）和DISCERN工具的標準評估ChatGPT的回答。結果顯示，ChatGPT的回答質量中等，60%被認為滿意，但40%有缺陷，主要是缺乏科學參考資料。此外，回答的可讀性達到大學水平，對健康素養較低的病人來說理解上有挑戰。結論指出，雖然ChatGPT能提供一般資訊，但在作為病人主要教育資源前，需專家監督。這是首個專門檢視ChatGPT在觸發指情境中的研究。 PubMed DOI

Assessing the Usability of ChatGPT Responses Compared to Other Online Information in Hand Surgery.
評估 ChatGPT 回應的可用性與其他線上資訊在手外科中的比較。 Hand (N Y) 2025-04-12

這項研究評估了手部手術相關的線上醫療資訊，並比較了Google、ChatGPT-3.5和ChatGPT-4.0的回應。研究針對腕隧道症候群、網球肘和富血小板血漿用於拇指關節炎三個問題進行分析。主要發現包括： 1. **可讀性**：Google的回應較易讀，平均在八年級水平，而ChatGPT則在大學二年級水平。低共識主題的可讀性普遍較差。 2. **可靠性與準確性**：ChatGPT-4的可靠性與3.5相似，但低共識主題的可讀性較低，準確性差異不大。 3. **覆蓋範圍**：ChatGPT-4和Google在疾病原因和程序細節的覆蓋上有所不同，但在解剖學和病理生理學上相似。總結來說，雖然ChatGPT能提供可靠的醫療資訊，但可讀性較差，醫療提供者需注意其局限性。 PubMed DOI

An Assessment of the Accuracy and Consistency of ChatGPT in the Management of Midshaft Clavicle Fractures.
ChatGPT 在處理鎖骨中段骨折管理時的準確性與一致性評估 Cureus 2025-05-09

這項研究發現，ChatGPT-4o在回答鎖骨中段骨折問題時，常混合正確與錯誤資訊，且多數引用的文獻都是假的或錯誤的。整體來說，ChatGPT在這方面的準確性和可靠性有限，建議臨床應用前要特別小心評估風險。 PubMed DOI

Evaluation of ChatGPT responses to common patient questions on ankle fusion.
ChatGPT 回應常見有關踝關節融合手術病人問題之評估 Foot Ankle Surg 2025-05-13

**重點整理：** 這項研究發現，ChatGPT 4.0 對於有關踝關節融合手術的常見病人問題，通常能提供正確且品質尚可的回答，但它的回覆內容用詞偏艱深，平均閱讀程度約在11.6年級，對很多病人來說理解上會有困難。 PubMed DOI

Assessing Accuracy of Chat Generative Pre-Trained Transformer's Responses to Common Patient Questions Regarding Congenital Upper Limb Differences.
Chat Generative Pre-Trained Transformer 回應常見先天性上肢差異患者問題之準確性評估 J Hand Surg Glob Online 2025-06-16

這項研究發現，ChatGPT-4.0在回答先天性上肢差異常見問題時，大約一半答案正確且清楚，但有8%內容不夠好或可能誤導。回答內容深度和完整性不一，且很少建議諮詢專業醫師。總結來說，ChatGPT提供的資訊大致可靠，但不夠全面或個人化，建議病人衛教時要小心使用。 PubMed DOI

原始文章

站上相關主題文章列表