AI discernment in foot and ankle surgery research: A survey investigation.
足踝外科研究中的人工智慧辨識：一項調查研究。 Foot Ankle Surg 2024-10-19

這項研究探討了在足踝外科領域中，醫生能否區分由人工智慧（特別是ChatGPT 3.0）生成的摘要與人類撰寫的摘要。研究中，九位醫生參加了盲測，結果顯示他們的準確率僅為50.5%，幾乎等同於隨機猜測。評審者的經驗和對人工智慧的熟悉度對準確性影響不大，且評審者之間的可靠性隨時間下降。這顯示人工智慧生成的摘要與人類撰寫的相似度高，讓識別變得困難。 PubMed DOI

Can ChatGPT-4 Diagnose and Treat Like an Orthopaedic Surgeon? Testing Clinical Decision Making and Diagnostic Ability in Soft-Tissue Pathologies of the Foot and Ankle.
ChatGPT-4 能像骨科醫生一樣進行診斷和治療嗎？測試其在足部和踝部軟組織病理中的臨床決策能力和診斷能力。 J Am Acad Orthop Surg 2024-10-23

這項研究評估了ChatGPT-4在處理足部和踝部病變的診斷能力，提供了八個臨床案例，並由三位專科骨科醫生進行評分。結果顯示，ChatGPT-4的平均得分為22.0分（滿分25分），對Morton神經瘤的案例得分最高（24.7分），而腓骨肌腱撕裂的案例得分最低（16.3分）。雖然它在診斷和治療建議上表現優異，但在提供全面資訊和替代治療選項方面仍有不足。不過，它並未提出虛構的治療方案，顯示出其可靠性。總體來看，ChatGPT-4可成為醫生提供病人教育的有用工具。 PubMed DOI

ChatGPT Achieves Only Fair Agreement with ACFAS Expert Panelist Clinical Consensus Statements.
ChatGPT 與 ACFAS 專家小組臨床共識聲明僅達到公平一致性。 Foot Ankle Spec 2025-02-22

這項研究探討了AI語言模型ChatGPT-o1與美國足踝外科醫師學會（ACFAS）2015至2022年間的臨床共識聲明之間的對齊情況。研究分析了9份文件中的129條聲明，結果顯示AI與專家之間的協議程度為公平（Cohen's kappa值0.29）。在踝關節炎和跟痛症的共識度達100%，但扁平足僅25%。此外，ChatGPT的內部可靠性變異，kappa值介於0.41到0.92之間。這顯示AI與專家意見之間仍有顯著差異，需進一步研究。此研究屬於四級回顧性隊列研究。 PubMed DOI

Comparing ChatGPT 4.0's Performance in Interpreting Thyroid Nodule Ultrasound Reports Using ACR-TI-RADS 2017: Analysis Across Different Levels of Ultrasound User Experience.
比較 ChatGPT 4.0 在解讀使用 ACR-TI-RADS 2017 的甲狀腺結節超音波報告中的表現：不同超音波使用者經驗水平的分析。 Diagnostics (Basel) 2025-03-13

本研究評估了ChatGPT 4.0根據ACR-TI-RADS 2017標準解讀甲狀腺超音波報告的能力，並與醫療專家及一名缺乏經驗的使用者進行比較。結果顯示，ChatGPT在回聲焦點的評估上與專家一致，但在其他標準上則有不一致。缺乏經驗的使用者表現優於ChatGPT，顯示傳統醫學訓練的重要性。結論指出，ChatGPT可作為輔助診斷工具，但無法取代人類專業知識，並建議改善AI算法以增強其臨床實用性。 PubMed DOI

Comparison of ChatGPT's Diagnostic and Management Accuracy of Foot and Ankle Bone-Related Pathologies to Orthopaedic Surgeons.
ChatGPT 在足踝骨骼相關病變之診斷與治療準確度與骨科醫師的比較 J Am Acad Orthop Surg 2025-04-15

這項研究發現，ChatGPT-4在診斷和建議治療足踝骨骼損傷時表現不錯，能準確給出標準答案，且不會亂編內容。不過，它在提供更深入或超出標準的醫療建議時還有不足。整體來說，對病患或非專科醫師來說，ChatGPT-4是有潛力的輔助工具，但資訊深度有限。 PubMed DOI

Evaluating artificial intelligence performance in medical image analysis: Sensitivity, specificity, accuracy, and precision of ChatGPT-4o on Kellgren-Lawrence grading of knee X-ray radiographs.
醫學影像分析中人工智慧表現之評估：ChatGPT-4o 在膝關節 X 光片 Kellgren-Lawrence 分級的敏感度、特異度、準確度與精確度 Knee 2025-04-24

這項研究發現，ChatGPT-4o在判讀膝關節X光片和分級骨關節炎時，表現遠不如專業放射科醫師，準確率只有0.23，幾乎無法正確分辨不同等級。結果顯示，目前ChatGPT-4o還不適合用在這類臨床診斷，未來還需要大幅改進。 PubMed DOI

Assessment of ChatGPT's adherence to evidence-based clinical practice guidelines for plantar fasciitis management.
ChatGPT 在足底筋膜炎（plantar fasciitis）治療上遵循循證臨床實踐指引的評估 J Orthop Surg Res 2025-04-30

這項研究比較了ChatGPT-4o和4 Turbo在提供足底筋膜炎治療建議的表現，發現兩者在準確度和一致性上都不錯，特別是在封閉式問題和正面建議方面表現較佳。不過，根據問題類型和建議強度，兩者還是有些微差異。總結來說，ChatGPT能產生符合指引的建議，但使用時還是要小心，注意其限制。 PubMed DOI

Diagnostic accuracy of ChatGPT-4 in orthopedic oncology: a comparative study with residents.
ChatGPT-4 在骨科腫瘤診斷準確性的表現：與住院醫師的比較研究 Knee 2025-05-01

這項研究發現，骨科住院醫師在判讀肌肉骨骼腫瘤切片的正確率（55%）明顯高於ChatGPT-4（25–33%）。兩者在某些腫瘤類型，特別是軟組織肉瘤上表現都不理想。目前ChatGPT-4還不適合獨立用於臨床診斷，未來還需要更專業的AI模型和進一步研究。 PubMed DOI

Evaluating the Diagnostic Accuracy of ChatGPT-4.0 for Classifying Multimodal Musculoskeletal Masses: A Comparative Study with Human Raters.
ChatGPT-4.0 在分類多模態肌肉骨骼腫塊之診斷準確性的評估：與人工評分者之比較研究 Rofo 2025-06-03

研究發現，ChatGPT-4.0在判讀肌肉骨骼腫瘤影像時，主要診斷正確率低於人類專家（44%比87%），但若加上次要診斷，差距縮小（71%比94%）。雖然準確度還不及專家，但因為速度快又隨時可用，未來有機會成為放射科的輔助工具。 PubMed DOI

Can AI-Based ChatGPT Models Accurately Analyze Hand-Wrist Radiographs? A Comparative Study.
AI-Based ChatGPT 模型能準確分析手腕X光片嗎？一項比較研究 Diagnostics (Basel) 2025-06-26

這項研究比較三種ChatGPT模型預測手腕X光骨齡和生長階段的準確度，結果都和專家評估高度一致。GPT-o1-pro骨齡預測最準，GPT-4o則在生長階段分類表現最佳。雖然還不能取代臨床判斷，但這些AI工具已展現初步評估的實用性，未來還需持續優化。 PubMed DOI

原始文章

站上相關主題文章列表