ChatGPT-3.5 and -4.0 Do Not Reliably Create Readable Patient Education Materials for Common Orthopaedic Upper- and Lower-Extremity Conditions.
ChatGPT-3.5 和 -4.0 在創建常見骨科上下肢疾病的可讀患者教育材料方面不可靠。 Arthrosc Sports Med Rehabil 2025-03-05

這項研究評估了ChatGPT-3.5和ChatGPT-4.0在生成病人教育材料的效果，針對常見的上肢和下肢骨科疾病進行分析。結果顯示，ChatGPT-3.5的可讀性僅有2%和4%達標，而ChatGPT-4.0則有54%達標，顯示出明顯的進步。雖然ChatGPT-4.0在可讀性上表現優異，但兩者仍被視為不可靠，無法完全取代傳統病人教育方式，應作為醫療提供者的輔助工具。 PubMed DOI

Evaluating AI-generated patient education materials for spinal surgeries: Comparative analysis of readability and DISCERN quality across ChatGPT and deepseek models.
評估 AI 生成的脊椎手術病患教育材料：ChatGPT 與 deepseek 模型在可讀性和 DISCERN 質量上的比較分析。 Int J Med Inform 2025-03-19

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性，主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示，DeepSeek-R1 的可讀性最佳，Flesch-Kincaid 分數介於 7.2 到 9.0 之間，而 ChatGPT-o3 的可讀性最低，超過 10.4。所有模型的資訊品質均低於 60，顯示出「公平」的品質，主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性，未來應整合互動元素和病患反饋，以提升準確性和可及性。 PubMed DOI

ChatGPT-4 Effectively Responds to Common Patient Questions on Total Ankle Arthroplasty: A Surgeon-Based Assessment of AI in Patient Education.
ChatGPT-4 有效回應關於全踝關節置換術的常見病人問題：基於外科醫生的人工智慧在病人教育中的評估。 Foot Ankle Orthop 2025-03-31

這項研究評估了ChatGPT-4在回答全踝關節置換術（TAA）相關問題的表現。研究人員提出十二個常見問題，並請四位專科外科醫生評分其回答的準確性和清晰度。平均得分為1.8（滿分4分），顯示在事實性問題上表現尚可，但對於術後方案等細緻問題評分較低。外科醫生的評分差異顯著，顯示出不同的解讀和期望。這強調了針對特定臨床情境設計AI工具的必要性，以提升病人教育和資訊的準確性。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

A comparison of performance of DeepSeek-R1 model-generated responses to musculoskeletal radiology queries against ChatGPT-4 and ChatGPT-4o - A feasibility study.
DeepSeek-R1 模型在肌肉骨骼放射學問題回應表現與 ChatGPT-4 及 ChatGPT-4o 之比較－一項可行性研究 Clin Imaging 2025-05-17

這項研究發現，ChatGPT-4 和 4o 在回答肌肉骨骼放射學問題時，表現比 DeepSeek R1 好很多，答案更準確、結構清楚，參考資料也比較可靠。特別是針對最新研究，ChatGPT-4o 最值得信賴；相較之下，DeepSeek R1 常出錯，還會給假資料，還需要再加強。 PubMed DOI

Evaluating retrieval augmented generation and ChatGPT's accuracy on orthopaedic examination assessment questions.
檢視檢索增強生成（Retrieval Augmented Generation）與 ChatGPT 在骨科檢查評量題目上的準確性 Ann Jt 2025-05-19

這項研究發現，結合RAG技術的ChatGPT-4在骨科考題上的表現，正確率約74%，跟骨科醫師差不多，也比沒用RAG的ChatGPT-4和3.5好。RAG還能讓AI引用資料來源，提升可信度，對骨科教學和考試準備很有幫助。 PubMed DOI

Evaluating Artificial Intelligence in Patient Education: DeepSeek-V3 Versus ChatGPT-4o in Answering Common Questions on Laparoscopic Cholecystectomy.
人工智慧於病患衛教中的評估：DeepSeek-V3 與 ChatGPT-4o 在回答腹腔鏡膽囊切除術常見問題之比較 ANZ J Surg 2025-06-11

這項研究比較DeepSeek-V3和ChatGPT-4o在回答腹腔鏡膽囊切除術常見病人問題的表現。由兩位外科醫師評分後，發現DeepSeek-V3在適切性、正確性和易讀性都勝出，顯示它在這類病人衛教上可能更有優勢。 PubMed DOI

Comparative Efficacy of ChatGPT and DeepSeek in Addressing Patient Queries on Gonarthrosis and Total Knee Arthroplasty.
ChatGPT 與 DeepSeek 在回應關於膝關節炎（Gonarthrosis）及全膝關節置換術（Total Knee Arthroplasty）病患問題之效能比較 Arthroplast Today 2025-06-16

這項研究發現，ChatGPT在解釋膝關節置換手術及術後照護時，比DeepSeek更準確、讓人更滿意。不論病人還是骨科醫師，都比較推薦ChatGPT。顯示ChatGPT有機會成為病人衛教和減輕手術焦慮的好幫手。未來可再研究AI怎麼融入臨床，對治療結果有什麼影響。 PubMed DOI

A custom ChatGPT can accurately answer questions from an international expert osteotomy consensus statement.
一個自訂的 ChatGPT 能夠準確回答國際專家截骨術共識聲明中的問題。 Eur J Orthop Surg Traumatol 2025-06-16

這項研究測試了經過客製化訓練的ChatGPT，針對高脛骨截骨術（HTO）問題的回答能力，並以專家共識聲明為基礎。研究用10題測試AI，並由三位膝關節外科醫師評分。結果顯示，AI在正確性、相關性、清楚度和完整性方面表現都不錯，評審間一致性也高。雖然對非共識聲明的題目分數略低，但整體來說，這個AI有潛力成為外科醫師的輔助工具，也適合應用在其他醫療指引上。 PubMed DOI

Exploring ChatGPT's Efficacy in Orthopaedic Arthroplasty Questions Compared to Adult Reconstruction Surgeons.
ChatGPT 在骨科關節置換問題上的效能：與成人重建外科醫師的比較 Arthroplast Today 2025-07-23

這項研究發現，ChatGPT-4在回答關節置換相關問題時，正確率只有66.9%，明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上，表現更差。雖然ChatGPT可當作學習輔助，但還無法取代專業醫師的臨床判斷，未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI

原始文章

站上相關主題文章列表