這項研究評估了ChatGPT-3.5、ChatGPT-4及由ChatGPT-4驅動的Microsoft Copilot在手外科自我評估考試中的表現。分析了1,000道來自美國手外科學會的問題。結果顯示,ChatGPT-3.5的正確率為51.6%,而ChatGPT-4提升至63.4%;Microsoft Copilot則為59.9%。ChatGPT-4和Microsoft Copilot的表現均優於ChatGPT-3.5,顯示出它們在醫學教育中的潛力。研究建議未來需進一步評估這些模型在不同情境下的可靠性。
PubMed
DOI