原始文章

這項研究評估了兩個語言學習模型,ChatGPT 和 Gemini,對肩袖損傷治療建議的準確性,並與2020年美國骨科醫學會的臨床指導方針進行比較。結果顯示,ChatGPT 在13種治療方法上與指導方針一致(81%),而Gemini則在12種(75%)。ChatGPT 有3種不一致回應(19%),Gemini則有4種(25%)。根據Cohen's Kappa係數,兩者在分類上的一致性高達0.98。整體來看,雖然兩者表現不錯,但仍有不一致的情況。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,在提供小兒骨科疾病建議的可靠性,並參考了美國骨科醫學會(AAOS)的指導方針。結果顯示,ChatGPT和Gemini的符合率分別為67%和69%,差異不大。值得注意的是,ChatGPT沒有引用任何研究,而Gemini則參考了16項研究,但大多數存在錯誤或不一致。總體來看,這些模型雖然在某程度上符合指導方針,但仍有許多中立或不正確的陳述,顯示醫療AI模型需改進與提高透明度。 PubMed DOI

這項研究評估了幾個商業可用的大型語言模型(LLMs)在提供治療建議時,與美國骨科醫學會(AAOS)針對肩袖撕裂和前交叉韌帶(ACL)損傷的臨床指導方針(CPGs)的符合度。分析了48項CPGs,結果顯示70.3%的回應與指導方針一致,ChatGPT-4的符合率最高(79.2%),而Mistral-7B最低(58.3%)。研究指出,雖然LLMs能提供一致建議,但缺乏透明的資料來源,限制了其作為臨床支持工具的可靠性,未來應擴大評估範圍以減少偏見。 PubMed DOI

這項研究評估了ChatGPT-4在生成骨科疾病治療建議的有效性,並與美國骨科醫學會的指導方針及醫師計畫進行比較。主要發現包括: 1. ChatGPT-4的建議與AAOS指導方針一致性達90%。 2. 與主治醫師的建議一致性為78%。 3. 在骨折及關節炎案例中表現優異,但腕管綜合症表現不佳。 4. 不一致主要出現在腕管綜合症及其他特定損傷。 5. 雖然ChatGPT-4能提供準確建議,但在考量患者特定因素時仍需醫師的批判性評估。 總之,ChatGPT-4在骨科治療中具輔助潛力,但需專業監督。 PubMed DOI

這項研究評估了ChatGPT-4和Gemini在根據2022年美國骨科醫學會的前交叉韌帶重建指導方針生成回應的表現。七位專科醫生使用問卷評估這些回應,結果顯示兩者表現都不錯,平均分數超過4。Gemini在整體清晰度及康復與預防的完整性上優於ChatGPT-4,顯示出顯著的優勢。這項研究強調了大型語言模型在醫療領域的潛力,對醫療專業人員和病人皆有價值。 PubMed DOI

本研究評估了ChatGPT在老年人髖部骨折管理方面的表現,基於美國骨科醫學會的指導方針。使用19項陳述進行測試,結果顯示其準確率分別為0.684、0.579和0.632,精確率則為0.740、0.737和0.718,顯示中等一致性。雖然ChatGPT能提供相關指導,但準確性仍有待加強,且幻覺現象是主要限制。未來應探討如何有效利用ChatGPT作為病人教育工具。 PubMed DOI

這項研究評估了三款AI聊天機器人(ChatGPT-4.0、ChatGPT-3.5和Google Gemini)在美國骨科醫學會針對小兒肱骨上髁骨折和股骨幹骨折的建議中的準確性。結果顯示,ChatGPT-4.0和Google Gemini的準確率較高,分別為11項和9項建議。雖然所有機器人都提供了補充資訊,但修改需求各異,且可讀性方面Google Gemini表現較佳。整體而言,這些工具在小兒骨科病人教育上仍需改進。 PubMed DOI

這項研究評估了兩個人工智慧模型,ChatGPT-4o 和 Gemini Advanced,與美國外科醫學會2022年脊椎損傷管理指導方針的一致性。研究設計了52個問題,結果顯示ChatGPT-4o的一致率為73.07%,正確回答38題;而Gemini Advanced為69.23%,正確回答36題。兩者在臨床資訊一致率均為75%。Gemini在診斷性問題上表現較佳,但ChatGPT在治療性問題上較強。整體而言,這些模型在脊椎損傷管理上顯示潛力,但仍有改進空間。 PubMed DOI

這項研究評估了ChatGPT對旋轉袖撕裂病人常見問題的回答能力,並比較了標準與六年級閱讀水平的回應。結果顯示,標準回應在準確性(4.7)和適當性(4.5)上優於六年級回應(3.6和3.7),且差異顯著(P < 0.001)。不過,標準回應的準確性和適當性仍低於OrthoInfo(準確性4.7對5.0,適當性4.5對5.0)。雖然標準回應較佳,但可讀性卻不如OrthoInfo。結論建議,ChatGPT不應作為病人資訊的唯一來源,但可作為骨科醫生資訊的補充。 PubMed DOI

這項研究評估了大型語言模型(LLM)如ChatGPT和Gemini在提供骨關節軟骨壞死(OCD)資訊的表現。七位專科骨科醫生使用5點李克特量表評估兩個模型的回應,涵蓋相關性、準確性、清晰度等六個類別。結果顯示,ChatGPT在清晰度上得分最高,而Gemini在相關性和準確性上表現優異。不過,兩者在基於證據的回應上得分較低,顯示需改進。整體而言,ChatGPT表現較佳,但仍需進一步研究以確認LLMs在其他骨科疾病上的可靠性。 PubMed DOI

旋轉袖肌腱撕裂是常見的肩部傷害,會影響功能和生活品質。隨著人們越來越依賴人工智慧大型語言模型(AI LLMs)獲取健康資訊,評估其資訊質量和可讀性變得重要。一項研究針對此傷害生成50個問題,分析了多個AI模型及Google搜尋的回應。結果顯示,雖然有改進潛力,但目前的AI LLM在醫療資訊的質量和可讀性上仍不足,未來需持續評估並提升其表現,以更好地支持病人教育。 PubMed DOI