原始文章

生成式人工智慧(AI)透過聊天機器人增強了人與人之間的連結。本研究評估了三個聊天機器人(ChatGPT、Bard和Perplexity)在解答2008至2023年西班牙MIR考試的骨科手術和創傷學問題上的表現。結果顯示,ChatGPT的正確率最高(72.81%),Bard在可讀性和全面性上表現最佳。雖然這些機器人展現了潛力,但仍需謹慎使用,因為它們可能出現錯誤,人類專業知識仍然更為重要。 PubMed DOI


站上相關主題文章列表

骨科面臨挑戰,需快速決策,患者教育至關重要。AI如ChatGPT可增進骨科護理,協助診斷、建議檢查、優化治療。然限制在專業知識和情境理解。研究探索ChatGPT在骨科的潛力,需人監督。解決偏見、隱私等挑戰重要。需進一步研究確保ChatGPT在護理中可靠、準確、道德。 PubMed DOI

研究比較三種人工智慧工具在骨科臨床決策上的表現,發現ChatGPT 4與人類回應最一致。然而在爭議案例中,人工智慧工具表現較不準確,顯示仍有改進空間。在臨床應用上需謹慎整合,未來研究應專注於開發專用臨床人工智慧工具以提升效能。 PubMed DOI

研究比較了ChatGPT-3.5和Google Bard在回答血管手術相關問題時的表現,發現ChatGPT的回答更準確完整,易讀且適合大專程度;Bard則適合高中程度但品質較低。ChatGPT提供較長回答,顯示在血管手術病人教育上有潛力,但仍需進一步研究改進。 PubMed DOI

研究評估人工智慧對手部手術問題回答的正確度,透過ChatGPT提問。兩位手外醫檢視回答,發現多數正確,但意見有分歧。研究顯示語言模型可能影響患者觀感,需確保安全並避免錯誤。外科醫師與AI開發者合作,提供最佳照護。 PubMed DOI

生成式人工智慧技術,特別是聊天機器人,可以像人一樣對話,幫助病人瞭解資訊。研究比較了三個聊天機器人模型,發現ChatGPT回答最準確,其次是Perplexity和BARD。BARD回答最易懂。雖然聊天機器人對醫學問題有幫助,但仍需小心因為可能出錯。在醫學領域,人類的判斷仍然比人工智慧重要。 PubMed DOI

研究發現,ChatGPT提供的醫學資訊品質不佳,甚至可能有危險。資訊品質高與醫師評分正相關。醫學人工智慧有潛力,但需改進準確性和可靠性。持續研究發展對提升醫療人工智慧應用、改善患者教育和知情同意流程至關重要。 PubMed DOI

研究發現,在骨科創傷手術中使用ChatGPT表現良好,對患者、非骨科醫生和專家骨科外科醫生的回答準確率分別為52.9%、64.7%和70.5%。ChatGPT的回答完整性得分也很高,分別為52.9%、73.5%和82.4%。整體而言,ChatGPT在骨科創傷手術中為不同對象提供有價值和準確回答的潛力表現出色。 PubMed DOI

這項研究探討了開放存取的人工智慧軟體ChatGPT在回答與骨科手術相關的病人問題的準確性。研究聚焦於六種手術,包括前交叉韌帶重建和全髖關節置換等。研究者向ChatGPT提出標準問題,並將其回答與專家意見比較,結果顯示平均得分為2.43,顯示與專家意見有一定一致性。研究指出,ChatGPT可能成為病人了解手術選擇的有用工具,但仍需進一步研究以驗證結果並探討其在外科實踐中的應用。 PubMed DOI

這項研究評估了三個AI模型—ChatGPT、Bard和BingChat—在骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT的準確率為46.3%,BingChat為52.4%,Bard為51.4%。排除圖像問題後,準確率有所提升,ChatGPT達49.1%,BingChat 53.5%,Bard 56.8%。相比之下,醫學生的表現為30.8%,而PGY1至PGY5住院醫師的準確率分別為53.1%到71.9%。整體來看,這些AI模型的表現與第一年住院醫師相似。 PubMed DOI

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 PubMed DOI