The Quality of AI-Generated Dental Caries Multiple Choice Questions: A Comparative Analysis of ChatGPT and Google Bard Language Models.
AI生成的牙齒龜裂多重選擇題的品質：ChatGPT和Google Bard語言模型的比較分析。 Heliyon 2024-04-10

人工智慧技術如ChatGPT和Google Bard（現Gemini）可幫助老師出多選題，像是有關牙齲的題目。研究指出，這些模型出的問題相關性差不多，但Bard的問題比較有挑戰性。ChatGPT容易出現格式錯誤，Bard則用專業術語。兩者都有效，特別是在知識和理解方面。老師可以利用語言模型省時，專心教學，但要確保問題符合教學目標。 PubMed DOI

Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Performance of Large Language Models on the Korean Dental Licensing Examination: A Comparative Study.
大型語言模型在韓國牙科執照考試中的表現：一項比較研究。 Int Dent J 2024-10-06

這項研究探討大型語言模型（LLMs），如ChatGPT和Claude3-Opus，在牙科教育及實踐中的應用，特別是它們在韓國牙科執照考試（KDLE）的表現。評估涵蓋了GPT-3.5、GPT-4和Claude3-Opus，考題來自2019至2023年。結果顯示，Claude3-Opus表現優於其他模型，除了2019年時ChatGPT-4最佳。Claude3-Opus和ChatGPT-4通過了及格分數，但ChatGPT-3.5未能通過。所有LLMs的得分仍低於人類牙科學生，僅約85.4%。研究建議，雖然LLMs尚未達到人類水平，但仍可在牙科領域提供有價值的支持。 PubMed DOI

Performance of large language artificial intelligence models on solving restorative dentistry and endodontics student assessments.
大型語言人工智慧模型在解決修復牙科和根管治療學生評估中的表現。 Clin Oral Investig 2024-10-07

這項研究分析了不同大型語言模型（LLMs）在牙科和根管治療學生評估中的表現。共測試151道選擇題，結果顯示ChatGPT-4.0o的準確率最高，達72%，其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯，特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題，但效果因模型而異，顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

Evaluating Large Language Models in Dental Anesthesiology: A Comparative Analysis of ChatGPT-4, Claude 3 Opus, and Gemini 1.0 on the Japanese Dental Society of Anesthesiology Board Certification Exam.
評估大型語言模型在牙科麻醉學中的應用：ChatGPT-4、Claude 3 Opus 和 Gemini 1.0 在日本牙科麻醉學會董事認證考試中的比較分析。 Cureus 2024-10-29

本研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示，ChatGPT-4的正確率為51.2%，Claude 3 Opus為47.4%，而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳，但目前的正確率仍不足以支持臨床應用。研究指出，需改善高品質資訊的可獲得性及提示設計，以提升LLMs在牙科麻醉的實用性。 PubMed DOI

Comparing the dental knowledge of large language models.
比較大型語言模型的牙科知識。 Br Dent J 2024-11-01

**引言** 隨著人工智慧的發展，大型語言模型（LLMs）在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本，潛在地提升臨床實踐和病人教育，但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識，透過分析它們對全國牙科考試（INBDE）問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs，針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高，達75.88%；Claude-2.1為66.38%；Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力，並強調選擇合適模型的重要性，但在臨床應用前仍需克服一些挑戰。 PubMed DOI

Large Language Models in Dental Licensing Examinations: Systematic Review and Meta-Analysis.
大型語言模型在牙科執照考試中的應用：系統性回顧與統合分析。 Int Dent J 2024-11-12

這項研究系統性回顧並進行元分析，評估大型語言模型（LLMs）在全球牙科執照考試中的表現。研究涵蓋2022年1月至2024年5月的相關文獻，共納入11項研究，來自8個國家。結果顯示，GPT-3.5、GPT-4和Bard的準確率分別為54%、72%和56%，其中GPT-4表現最佳，通過超過一半的考試。雖然LLMs在牙科教育和診斷中顯示潛力，但整體準確性仍低於臨床應用標準，主要因為訓練數據不足及影像診斷挑戰，因此目前不適合用於牙科教育和臨床診斷。 PubMed DOI

Accuracy of latest large language models in answering multiple choice questions in dentistry: A comparative study.
最新大型語言模型在牙科多選題回答中的準確性：一項比較研究。 PLoS One 2025-01-29

這項研究評估了六種大型語言模型（LLMs）在回答牙科多選題的表現，分析了1490道來自美國國家牙科考試的題目。測試的模型包括ChatGPT 4.0 omni、Gemini Advanced 1.5 Pro等。結果顯示，Copilot（85.5%）、Claude（84.0%）和ChatGPT（83.8%）的準確性最佳。雖然這些模型在文字型問題上表現良好，但在影像型問題上則較弱。研究建議牙科專業人士和學生應使用更新的模型，以提升教育和臨床需求的滿足。 PubMed DOI

Evaluating the Performance of Large Language Models (LLMs) in Answering and Analysing the Chinese Dental Licensing Examination.
評估大型語言模型 (LLMs) 在回答和分析中國牙科執照考試中的表現。 Eur J Dent Educ 2025-01-31

這項研究評估了多種大型語言模型（LLMs）在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題，並在三種情境下測試七個高效能的LLMs。結果顯示，Doubao-pro 32k和Qwen2-72b的準確性最高，分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異，但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

Can Artificial Intelligence Language Models Effectively Address Dental Trauma Questions?
人工智慧語言模型能有效解決牙科創傷問題嗎？ Dent Traumatol 2025-04-02

這項研究評估了五種大型語言模型（LLMs）在回答緊急牙科創傷問題的可靠性，依據國際牙科創傷學會的指導方針進行。研究結果顯示，ChatGPT 3.5的正確回答率最高（76.7%），其次是Copilot Pro（73.3%）和Copilot Free（70%）。雖然整體成功率差異不大，但Copilot和Gemini經常提供不準確的解釋，且缺乏可靠的參考資料。因此，雖然LLMs在牙科教育上有潛力，但在實踐中需謹慎使用。 PubMed DOI

原始文章

站上相關主題文章列表