原始文章

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,在提供小兒骨科疾病建議的可靠性,並參考了美國骨科醫學會(AAOS)的指導方針。結果顯示,ChatGPT和Gemini的符合率分別為67%和69%,差異不大。值得注意的是,ChatGPT沒有引用任何研究,而Gemini則參考了16項研究,但大多數存在錯誤或不一致。總體來看,這些模型雖然在某程度上符合指導方針,但仍有許多中立或不正確的陳述,顯示醫療AI模型需改進與提高透明度。 PubMed DOI


站上相關主題文章列表

研究使用大型語言模型探討骨科領域,專注於ACL手術。結果顯示ChatGPT在回答患者和醫生問題時相當準確,但仍需專業醫師確認。雖有潛力作為知識補充,但無法取代專業醫師。 PubMed DOI

人工智慧進步,如ChatGPT和Bard,可生成回應。研究比較它們對骨關節炎治療的指引,符合率分別為80%和60%。有時會推薦不推薦治療方法,但引用研究時30%不準確。總而言之,這些AI模型不總符合醫學指南,使用時應謹慎。 PubMed DOI

研究比較了OpenAI的ChatGPT和Google的Gemini在手部受傷分類和手術治療建議方面的表現。Gemini在手部受傷分類能力表現優異,正確率達70.6%,而ChatGPT則為0.87。ChatGPT在手術建議方面較敏感,但特異性較Gemini低。Gemini也展現更高的回應可複製性。研究顯示大型語言模型在醫學決策上有潛力,Gemini通常優於ChatGPT。 PubMed DOI

研究比較ChatGPT 4和Gemini Advanced在頭頸癌治療建議上的表現,發現ChatGPT 4較Gemini Advanced更遵循指引且治療規劃更全面。兩者在支持腫瘤學評估方面表現不錯,但仍有改進空間。研究強調持續更新和驗證的重要性,以更好整合人工智慧到醫療實務。 PubMed DOI

研究發現,ChatGPT提供的醫學資訊品質不佳,甚至可能有危險。資訊品質高與醫師評分正相關。醫學人工智慧有潛力,但需改進準確性和可靠性。持續研究發展對提升醫療人工智慧應用、改善患者教育和知情同意流程至關重要。 PubMed DOI

急性髖部骨折對公共健康,特別是老年人,造成重大挑戰。本研究評估ChatGPT-4.0在提供骨折治療建議的準確性,並與美國骨科醫學會(AAOS)的標準進行比較。結果顯示,ChatGPT-4.0的評分與AAOS有正相關,但在長髖髓釘的評估上存在顯著差異,且高估了全髖關節置換等治療的適當性。總體而言,ChatGPT-4.0在急性髖部骨折治療建議上不完全可靠,需進一步改進以符合醫療指導方針,提升病人治療效果。 PubMed DOI

這項研究評估了幾個商業可用的大型語言模型(LLMs)在提供治療建議時,與美國骨科醫學會(AAOS)針對肩袖撕裂和前交叉韌帶(ACL)損傷的臨床指導方針(CPGs)的符合度。分析了48項CPGs,結果顯示70.3%的回應與指導方針一致,ChatGPT-4的符合率最高(79.2%),而Mistral-7B最低(58.3%)。研究指出,雖然LLMs能提供一致建議,但缺乏透明的資料來源,限制了其作為臨床支持工具的可靠性,未來應擴大評估範圍以減少偏見。 PubMed DOI

這項研究探討了AI語言模型ChatGPT在診斷和管理前肩不穩定性,以及預防小兒脊椎手術感染方面,與骨科醫生的可靠性比較。結果顯示,ChatGPT在14個陳述上與專家意見有合理相關性,但同意程度較低。特別是在紫外線使用的陳述上,ChatGPT的回應與專家不一致,可能因為新文獻影響。總體來看,ChatGPT在簡單問題上準確性尚可,但面對複雜問題時限制明顯。這項研究強調了評估AI在臨床環境中可靠性的重要性。 PubMed DOI

這項研究評估了ChatGPT-4在生成骨科疾病治療建議的有效性,並與美國骨科醫學會的指導方針及醫師計畫進行比較。主要發現包括: 1. ChatGPT-4的建議與AAOS指導方針一致性達90%。 2. 與主治醫師的建議一致性為78%。 3. 在骨折及關節炎案例中表現優異,但腕管綜合症表現不佳。 4. 不一致主要出現在腕管綜合症及其他特定損傷。 5. 雖然ChatGPT-4能提供準確建議,但在考量患者特定因素時仍需醫師的批判性評估。 總之,ChatGPT-4在骨科治療中具輔助潛力,但需專業監督。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI