這項研究探討大型語言模型(LLMs),如ChatGPT和Claude3-Opus,在牙科教育及實踐中的應用,特別是它們在韓國牙科執照考試(KDLE)的表現。評估涵蓋了GPT-3.5、GPT-4和Claude3-Opus,考題來自2019至2023年。結果顯示,Claude3-Opus表現優於其他模型,除了2019年時ChatGPT-4最佳。Claude3-Opus和ChatGPT-4通過了及格分數,但ChatGPT-3.5未能通過。所有LLMs的得分仍低於人類牙科學生,僅約85.4%。研究建議,雖然LLMs尚未達到人類水平,但仍可在牙科領域提供有價值的支持。
PubMed
DOI