Do ChatGPT and Gemini Provide Appropriate Recommendations for Pediatric Orthopaedic Conditions?
ChatGPT 和 Gemini 是否對小兒骨科疾病提供適當的建議？ J Pediatr Orthop 2024-08-22

這項研究評估了大型語言模型（LLMs），如ChatGPT和Gemini，在提供小兒骨科疾病建議的可靠性，並參考了美國骨科醫學會（AAOS）的指導方針。結果顯示，ChatGPT和Gemini的符合率分別為67%和69%，差異不大。值得注意的是，ChatGPT沒有引用任何研究，而Gemini則參考了16項研究，但大多數存在錯誤或不一致。總體來看，這些模型雖然在某程度上符合指導方針，但仍有許多中立或不正確的陳述，顯示醫療AI模型需改進與提高透明度。 PubMed DOI

Discrepancies in ChatGPT's Hip Fracture Recommendations in Older Adults for 2021 AAOS Evidence-Based Guidelines.
2021 AAOS 依據證據的指引中 ChatGPT 對於老年人髖部骨折建議的差異。 J Clin Med 2024-10-16

本研究評估了ChatGPT在老年人髖部骨折管理方面的表現，基於美國骨科醫學會的指導方針。使用19項陳述進行測試，結果顯示其準確率分別為0.684、0.579和0.632，精確率則為0.740、0.737和0.718，顯示中等一致性。雖然ChatGPT能提供相關指導，但準確性仍有待加強，且幻覺現象是主要限制。未來應探討如何有效利用ChatGPT作為病人教育工具。 PubMed DOI

Pediatric Supracondylar Humerus and Diaphyseal Femur Fractures: A Comparative Analysis of Chat Generative Pretrained Transformer and Google Gemini Recommendations Versus American Academy of Orthopaedic Surgeons Clinical Practice Guidelines.
小兒肱骨上髁骨折與股骨幹骨折：Chat Generative Pretrained Transformer 和 Google Gemini 建議與美國骨科醫學會臨床實踐指導方針的比較分析。 J Pediatr Orthop 2025-01-14

這項研究評估了三款AI聊天機器人（ChatGPT-4.0、ChatGPT-3.5和Google Gemini）在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示，ChatGPT-4.0和Google Gemini的準確率較高，分別為11項和9項建議。雖然所有機器人都提供了補充資訊，但修改需求各異，且可讀性方面Google Gemini表現較佳。整體而言，這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

Evaluating the Quality and Readability of Information Provided by Generative Artificial Intelligence Chatbots on Clavicle Fracture Treatment Options.
評估生成式人工智慧聊天機器人提供的鎖骨骨折治療選項資訊的質量和可讀性。 Cureus 2025-02-10

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果，包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異，但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看，這些AI模型在病患教育中表現良好，特別是Microsoft Copilot和Perplexity，適合用於提供鎖骨骨折相關資訊。 PubMed DOI

Performance of Artificial Intelligence in Addressing Questions Regarding Management of Osteochondritis Dissecans.
人工智慧在解決有關骨軟骨壞死症管理問題上的表現。 Sports Health 2025-04-02

這項研究評估了大型語言模型（LLM）如ChatGPT和Gemini在提供骨關節軟骨壞死（OCD）資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應，涵蓋相關性、準確性、清晰度等六個類別。結果顯示，ChatGPT在清晰度上得分最高，而Gemini在相關性和準確性上表現優異。不過，兩者在基於證據的回應上得分較低，顯示需改進。整體而言，ChatGPT表現較佳，但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

Is ChatGPT a More Academic Source Than Google Searches for Patients Questions About Hip Arthroscopy? An Analysis of the Most Frequently Asked Questions.
ChatGPT 是否比 Google 搜尋更具學術性：針對病患關於髖關節鏡手術最常見問題的分析 J ISAKOS 2025-05-05

這項研究比較ChatGPT和Google搜尋在回答髖關節鏡手術相關問題的表現。結果發現，兩者表現差不多，但ChatGPT提供的技術細節較多，也更常引用學術資料；Google則多引用醫療網站、醫師個人網站和政府網頁。整體來說，ChatGPT在學術參考上表現較佳。 PubMed DOI

Evaluating the Accuracy, Clarity, and Safety of Artificial Intelligence-Generated Information on Clubfoot.
人工智慧生成之關於Clubfoot資訊的準確性、清晰度與安全性評估 J Am Acad Orthop Surg 2025-05-27

AI聊天機器人（如ChatGPT、Gemini、Meta AI）對先天性馬蹄足的資訊大致正確，但約四分之一內容有限或有誤，完全安全的回答僅三成，各平台差異不大。因準確性和安全性仍有疑慮，建議家長還是要諮詢專業醫師，不要只靠AI。若AI能取得最新實證醫療資料，未來會更可靠。 PubMed DOI

Performance of Artificial Intelligence in Addressing Questions Regarding the Management of Pediatric Supracondylar Humerus Fractures.
人工智慧在解答有關小兒肱骨髁上骨折處置問題的表現 J Pediatr Soc North Am 2025-05-28

這項研究比較ChatGPT和Gemini在依據2022年AAOS兒童肱骨髁上骨折指引下的表現。結果發現，兩者回答都符合指引，但Gemini在提供有根據的醫學證據上表現較佳，顯示Gemini在臨床資訊可靠度上較有潛力。不過，兩款AI各有優缺點。 PubMed DOI

Evaluating AI Chatbots for Preoperative and Postoperative Counseling for Mandibular Distraction Osteogenesis.
用於下頜骨牽引成骨術術前與術後衛教諮詢之 AI 聊天機器人評估 J Craniofac Surg 2025-06-09

這項研究發現，AI 聊天機器人（像是ChatGPT、Copilot等）在回答兒童下頜骨延長術常見照護問題時，雖然Copilot表現最好，但整體來說，答案不夠可靠、資料來源不足，而且用詞太艱深，病人和家屬很難看懂，暫時還不適合當作醫療諮詢的主要工具。 PubMed DOI

AI Chatbots in Pediatric Orthopedics: How Accurate Are Their Answers to Parents' Questions on Bowlegs and Knock Knees?
兒童骨科中的 AI 聊天機器人：它們對家長關於 O 型腿與 X 型腿問題的回答有多準確？ Healthcare (Basel) 2025-06-13

這項研究比較了三款AI聊天機器人回答兒童O型腿和X型腿問題的表現。結果發現，ChatGPT和Gemini的答案比Copilot更正確、內容也更完整，但三者在表達清楚度和錯誤資訊風險上差不多。整體來說，AI可以協助提供健康資訊，但在兒科醫療領域，專家審核還是很重要。 PubMed DOI

原始文章

站上相關主題文章列表