原始文章

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 PubMed DOI


站上相關主題文章列表

最新的人工智慧模型ChatGPT在醫學領域表現不如預期,尤其在骨科考試問題上只有47%的正確率,比不上第五年住院醫師。雖然無法通過手術筆試,但在學習和教育上有應用價值。 PubMed DOI

研究比較了骨科住院醫師和AI程式在骨科評估考試中的表現,結果顯示醫師比AI程式表現更好。AI在純文字問題上表現較佳,但整體而言,醫師優於AI。GPT-4比ChatGPT-3.5更優秀,但AI不太可能通過美國骨科醫學委員會考試。 PubMed DOI

研究比較了ChatGPT和GPT-4在沒有圖像的骨科住院醫師考試(OITE)上的表現。ChatGPT在PGY-1級別回答問題的準確率為54.3%,並有47.2%引用來源,期刊影響因子為5.4。GPT-4在PGY-5級別回答問題的準確率為73.6%,並有87.9%引用來源,期刊影響因子為5.2。結果顯示GPT-4優於平均PGY-5級別,顯示明顯進步。AI有潛力提升醫學教育和醫療服務效率。 PubMed DOI

研究指出,ChatGPT在骨科住院醫師培訓考試中表現優異,尤其在基礎科學、腫瘤學、肩膀/肘部和運動方面表現突出。問題分為管理、診斷和知識回憶三類,ChatGPT在提供委員會風格問題的臨床結論方面有潛力。然而,其推理能力仍需進一步評估。ChatGPT在臨床教育中有廣泛應用前景,有助於準確解答臨床問題。 PubMed DOI

2022年,AI語言模型如ChatGPT和Bard參加骨科住院醫師培訓考試(OITE)測試。ChatGPT正確率為69.1%,加上影像描述後提高至77.8%;Bard正確率為49.8%,加上描述後提高至58%。ChatGPT在肩膀問題表現最好(90.9%),Bard在運動問題表現最佳(65.4%)。ChatGPT優於平均考生,顯示AI在骨科教育有潛力,但需進一步研究與合作確保安全應用。 PubMed DOI

研究發現ChatGPT 4.0在回答骨科手術問題時表現良好,尤其在無需圖像的情況下更為準確。儘管人工智慧在骨科領域有潛力,仍需提升準確性。未來研究應致力於有效運用人工智慧來輔助而非取代醫生的技能。 PubMed DOI

研究發現AI語言模型ChatGPT在2021年骨科住院醫師培訓考試(OITE)中表現不錯,得分61.2%,跟一名平均第三年的醫師相當。評審間一致,回答合理。未來需進一步研究對學習和考試的長期影響。 PubMed DOI

研究發現ChatGPT在骨科住院醫師考試中表現不如預期,回答率僅45%,低於手部外科住院醫師的51%-76%。顯示需改進人工智慧工具用於上肢手術教育,以提升準確性。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5)在骨科知識和推理能力的表現,測試了472道來自不同來源的考題。結果顯示,ChatGPT的正確回答率為55.9%,且92.8%的正確答案與資料解釋一致。雖然它運用了內外部資訊和邏輯推理,但在81.7%的錯誤回答中未能識別必要資訊。整體來看,ChatGPT的表現低於美國骨科外科醫學委員會考試的通過門檻,與實習醫生或二年級住院醫師相當,顯示出在準確識別資訊方面的重大限制。 PubMed DOI

這項研究評估了三個AI模型—ChatGPT、Bard和BingChat—在骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT的準確率為46.3%,BingChat為52.4%,Bard為51.4%。排除圖像問題後,準確率有所提升,ChatGPT達49.1%,BingChat 53.5%,Bard 56.8%。相比之下,醫學生的表現為30.8%,而PGY1至PGY5住院醫師的準確率分別為53.1%到71.9%。整體來看,這些AI模型的表現與第一年住院醫師相似。 PubMed DOI