Evaluating ChatGPT and Google Gemini Performance and Implications in Turkish Dental Education.
評估 ChatGPT 和 Google Gemini 在土耳其牙科教育中的表現及其影響。 Cureus 2025-01-13

這項研究分析了四個先進的人工智慧模型在回答土耳其牙科專業考試問題的表現，共240題。結果顯示，Gemini 2.0 Advanced在2020年以96.80%的準確率最佳，2021年則是ChatGPT-o1以97.88%領先。整體來看，ChatGPT-o1和Gemini 2.0的準確率分別為97.46%和97.90%，明顯優於其他模型。研究也指出，使用AI評估牙科能力的倫理問題，並建議對考試知識進行更嚴格的評估，強調AI在牙科教育中的潛在應用。 PubMed DOI

Accuracy of latest large language models in answering multiple choice questions in dentistry: A comparative study.
最新大型語言模型在牙科多選題回答中的準確性：一項比較研究。 PLoS One 2025-01-29

這項研究評估了六種大型語言模型（LLMs）在回答牙科多選題的表現，分析了1490道來自美國國家牙科考試的題目。測試的模型包括ChatGPT 4.0 omni、Gemini Advanced 1.5 Pro等。結果顯示，Copilot（85.5%）、Claude（84.0%）和ChatGPT（83.8%）的準確性最佳。雖然這些模型在文字型問題上表現良好，但在影像型問題上則較弱。研究建議牙科專業人士和學生應使用更新的模型，以提升教育和臨床需求的滿足。 PubMed DOI

ChatGPT-4 Omni's superiority in answering multiple-choice oral radiology questions.
ChatGPT-4 Omni 在回答多選口腔放射學問題上的優越性。 BMC Oral Health 2025-02-01

這項研究評估了四個人工智慧模型在土耳其牙科專業入學考試中的表現，包括ChatGPT-3.5、ChatGPT-4 Omni、Google Bard和Microsoft Copilot，針對口腔放射學的多選題進行分析。研究涵蓋了2012至2021年的123道題目。結果顯示，ChatGPT-4 Omni的準確率最高，達86.1%，其次是Google Bard的61.8%。而ChatGPT-3.5和Microsoft Copilot的準確率則較低，分別為43.9%和41.5%。這顯示ChatGPT-4 Omni在推理能力上更為優越，對醫療專業人員和公眾來說是個重要的教育資源。 PubMed DOI

Effectiveness of various general large language models in clinical consensus and case analysis in dental implantology: a comparative study.
各種大型通用語言模型在牙科植牙臨床共識和案例分析中的有效性：一項比較研究。 BMC Med Inform Decis Mak 2025-03-27

這項研究評估了四個大型語言模型（LLMs）在牙植體問題上的表現，包括 ChatGPT-4.0、Gemini Pro 1.5(0801)、Claude 3 Opus 和 Qwen 2.0 72B。目的是幫助資源不足地區的醫生選擇最有效的模型，以提升牙科護理的可及性。結果顯示，ChatGPT-4.0 在簡單和複雜問題上表現最佳，Gemini Pro 1.5(0801) 在簡單問題上表現良好，但複雜問題不穩定。Qwen 2.0 72B 在特定案例上表現不錯，但變異性大，而 Claude 3 Opus 表現最差。建議使用多個模型組合以增強醫療決策能力。 PubMed DOI

Can Artificial Intelligence Language Models Effectively Address Dental Trauma Questions?
人工智慧語言模型能有效解決牙科創傷問題嗎？ Dent Traumatol 2025-04-02

這項研究評估了五種大型語言模型（LLMs）在回答緊急牙科創傷問題的可靠性，依據國際牙科創傷學會的指導方針進行。研究結果顯示，ChatGPT 3.5的正確回答率最高（76.7%），其次是Copilot Pro（73.3%）和Copilot Free（70%）。雖然整體成功率差異不大，但Copilot和Gemini經常提供不準確的解釋，且缺乏可靠的參考資料。因此，雖然LLMs在牙科教育上有潛力，但在實踐中需謹慎使用。 PubMed DOI

Accuracy, Consistency, and Contextual Understanding of Large Language Models in Restorative Dentistry and Endodontics.
大型語言模型在修復牙科與牙髓病學中的準確性、一致性與情境理解 J Dent 2025-04-17

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現，ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好，尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率，但效果不一定。即使表現最好的模型，可靠度也只有中等，偶爾還是會出錯，顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

Can deepseek and ChatGPT be used in the diagnosis of oral pathologies?
你提供的標題是： **Can deepseek and ChatGPT be used in the diagnosis of oral pathologies?** 翻譯為繁體中文(zh-TW)如下： **deepseek 與 ChatGPT 可用於口腔病理診斷嗎？** BMC Oral Health 2025-04-25

這項研究比較ChatGPT-4o和Deepseek-v3在16個虛構口腔病理案例的診斷表現。結果顯示，Deepseek-v3的診斷準確度和文獻引用都比ChatGPT-4o好，平均分數也較高（4.02比3.15）。雖然兩者都能協助臨床醫師，但在文獻正確性上還有待加強。目前Deepseek-v3在口腔病理診斷方面表現較優。 PubMed DOI

The role of artificial intelligence in medical education: an evaluation of Large Language Models (LLMs) on the Turkish Medical Specialty Training Entrance Exam.
人工智慧在醫學教育中的角色：大型語言模型（LLMs）於土耳其醫學專科訓練入學考試的評估 BMC Med Educ 2025-04-25

研究比較四款大型語言模型在2021年土耳其醫學專科考試的表現，ChatGPT 4正確率最高（88.75%），Llama 3 70B（79.17%）、Gemini 1.5 Pro（78.13%）次之，Command R+僅50%。ChatGPT 4在基礎和臨床醫學題目都很強，顯示它和Llama 3 70B有潛力協助土耳其語醫學教育與臨床應用，其他兩款則還需加強。 PubMed DOI

A pilot study of the performance of Chat GPT and other large language models on a written final year periodontology exam.
Chat GPT 及其他大型語言模型於牙周病學畢業考筆試表現之初步研究 BMC Med Educ 2025-05-19

最新的語言模型（像 GPT-4o、ChatGPT-4）在牙周病學筆試的表現，已經超越大四牙醫學生，分數甚至接近頂尖學生。其他免費模型（如 Claude、DeepSeek、Gemini）也都比學生高分，其中以 Claude 最突出。不過，這些 AI 的答案有時會不正確或不完整，表現也會隨時間變動。雖然它們能幫助牙醫學習，但在醫療領域還是要謹慎使用。 PubMed DOI

The Diagnostic Performance of Large Language Models and Oral Medicine Consultants for Identifying Oral Lesions in Text-Based Clinical Scenarios: Prospective Comparative Study.
大型語言模型與口腔醫學專科醫師在文字型臨床情境中辨識口腔病變的診斷表現：前瞻性比較研究 JMIR AI 2025-07-03

研究發現，ChatGPT在診斷50個口腔病灶案例時，準確度和專業醫師差不多，表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷，尤其是ChatGPT表現最突出。 PubMed DOI

原始文章

站上相關主題文章列表