原始文章

本研究探討人工智慧(AI)在骨科教育,特別是肩膀和肘部手術的應用。從AAOS ResStudy問題庫中選取50個相關問題,評估不同AI聊天機器人的表現。結果顯示,聊天機器人的平均準確率為60.4%,其中GPT-4o表現最佳,達74%。雖然AI在簡單問題上表現較佳,但仍需專家判斷的輔助,顯示AI在醫學教育中的潛力與局限性。 PubMed DOI


站上相關主題文章列表

人工智慧和大型語言模型在手術前的患者教育中扮演重要角色。研究比較了ChatGPT和Google搜尋在全肩關節置換術(TSA)和全肘關節置換術(TEA)常見問題回答的表現,兩者提供相似資訊。ChatGPT參考學術來源,Google則著重醫學實踐。人工智慧語言模型可補充患者和醫師討論,提升健康知識。了解人工智慧對醫學患者教育的影響至關重要,因為這些工具越來越普及。 PubMed DOI

研究比較了三個AI聊天機器人(ChatGPT-3.5、ChatGPT-4.0、Bard Google AI®)在回答骨科研究生級別的多重選擇題時的表現。結果顯示,Bard Google AI® 的表現比兩個ChatGPT版本好,顯示它在處理骨科知識方面有研究生水準的潛力。 PubMed DOI

研究發現ChatGPT在骨科住院醫師考試中表現不如預期,回答率僅45%,低於手部外科住院醫師的51%-76%。顯示需改進人工智慧工具用於上肢手術教育,以提升準確性。 PubMed DOI

這項研究探討了開放存取的人工智慧軟體ChatGPT在回答與骨科手術相關的病人問題的準確性。研究聚焦於六種手術,包括前交叉韌帶重建和全髖關節置換等。研究者向ChatGPT提出標準問題,並將其回答與專家意見比較,結果顯示平均得分為2.43,顯示與專家意見有一定一致性。研究指出,ChatGPT可能成為病人了解手術選擇的有用工具,但仍需進一步研究以驗證結果並探討其在外科實踐中的應用。 PubMed DOI

這項研究評估了三個聊天機器人—ChatGPT、Bing Chat 和 AskOE—在骨科手術治療問題上的回應品質。專家對每個機器人的回應進行評分,結果顯示 AskOE 在臨床正確性、完整性等方面表現最佳,受到評審者的偏好。雖然 ChatGPT 和 AskOE 都有錯誤,但 AskOE 的表現更為可靠,顯示其在醫療領域的潛在價值。 PubMed DOI

這項研究評估了三個AI模型—ChatGPT、Bard和BingChat—在骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT的準確率為46.3%,BingChat為52.4%,Bard為51.4%。排除圖像問題後,準確率有所提升,ChatGPT達49.1%,BingChat 53.5%,Bard 56.8%。相比之下,醫學生的表現為30.8%,而PGY1至PGY5住院醫師的準確率分別為53.1%到71.9%。整體來看,這些AI模型的表現與第一年住院醫師相似。 PubMed DOI

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 PubMed DOI

這項研究評估了ChatGPT(3.5和4版本)在提供肩膀和肘部手術資訊的準確性,分析了114個問題。結果顯示,ChatGPT 3.5的正確率為52.3%,而ChatGPT 4則達到73.3%。雖然3.5在不穩定性類別表現較佳,但4在大多數其他類別中表現更優。兩者的表現都超過50%的熟練度,但仍無法取代臨床決策。研究建議進一步改善ChatGPT的訓練,以提升其作為醫療資訊資源的效用。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI