原始文章

這項研究比較ChatGPT-4.0、ChatGPT-3.5和Google Gemini在回答DDH醫學問題時的表現。結果發現,三款AI的答案準確性都有限,常常有錯誤或遺漏重點。雖然準確度差不多,但Google Gemini的內容最容易閱讀。建議醫師要提醒病患,AI醫療資訊還有很多限制,不能完全依賴。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,在提供小兒骨科疾病建議的可靠性,並參考了美國骨科醫學會(AAOS)的指導方針。結果顯示,ChatGPT和Gemini的符合率分別為67%和69%,差異不大。值得注意的是,ChatGPT沒有引用任何研究,而Gemini則參考了16項研究,但大多數存在錯誤或不一致。總體來看,這些模型雖然在某程度上符合指導方針,但仍有許多中立或不正確的陳述,顯示醫療AI模型需改進與提高透明度。 PubMed DOI

本研究評估了ChatGPT在老年人髖部骨折管理方面的表現,基於美國骨科醫學會的指導方針。使用19項陳述進行測試,結果顯示其準確率分別為0.684、0.579和0.632,精確率則為0.740、0.737和0.718,顯示中等一致性。雖然ChatGPT能提供相關指導,但準確性仍有待加強,且幻覺現象是主要限制。未來應探討如何有效利用ChatGPT作為病人教育工具。 PubMed DOI

這項研究評估了三款AI聊天機器人(ChatGPT-4.0、ChatGPT-3.5和Google Gemini)在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示,ChatGPT-4.0和Google Gemini的準確率較高,分別為11項和9項建議。雖然所有機器人都提供了補充資訊,但修改需求各異,且可讀性方面Google Gemini表現較佳。整體而言,這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

這項研究比較ChatGPT和Google搜尋在回答髖關節鏡手術相關問題的表現。結果發現,兩者表現差不多,但ChatGPT提供的技術細節較多,也更常引用學術資料;Google則多引用醫療網站、醫師個人網站和政府網頁。整體來說,ChatGPT在學術參考上表現較佳。 PubMed DOI

AI聊天機器人(如ChatGPT、Gemini、Meta AI)對先天性馬蹄足的資訊大致正確,但約四分之一內容有限或有誤,完全安全的回答僅三成,各平台差異不大。因準確性和安全性仍有疑慮,建議家長還是要諮詢專業醫師,不要只靠AI。若AI能取得最新實證醫療資料,未來會更可靠。 PubMed DOI

這項研究比較ChatGPT和Gemini在依據2022年AAOS兒童肱骨髁上骨折指引下的表現。結果發現,兩者回答都符合指引,但Gemini在提供有根據的醫學證據上表現較佳,顯示Gemini在臨床資訊可靠度上較有潛力。不過,兩款AI各有優缺點。 PubMed DOI

這項研究發現,AI 聊天機器人(像是ChatGPT、Copilot等)在回答兒童下頜骨延長術常見照護問題時,雖然Copilot表現最好,但整體來說,答案不夠可靠、資料來源不足,而且用詞太艱深,病人和家屬很難看懂,暫時還不適合當作醫療諮詢的主要工具。 PubMed DOI

這項研究比較了三款AI聊天機器人回答兒童O型腿和X型腿問題的表現。結果發現,ChatGPT和Gemini的答案比Copilot更正確、內容也更完整,但三者在表達清楚度和錯誤資訊風險上差不多。整體來說,AI可以協助提供健康資訊,但在兒科醫療領域,專家審核還是很重要。 PubMed DOI