Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Evaluating GPT-4V's performance in the Japanese national dental examination: A challenge explored.
評估 GPT-4V 在日本國家牙科考試中的表現：一項挑戰的探索。 J Dent Sci 2024-07-22

這項研究評估了具影像識別能力的AI ChatGPT-4V在回答日本國家牙科考試（JNDE）影像問題的表現，特別針對2023年1月的考題。結果顯示，整體正確率為35.0%，必修問題的準確率較高（57.1%），但臨床實務問題較低（28.6%）。在牙科麻醉學和根管治療方面表現良好，準確率超過70%。然而，影像數量越多，準確率越低，顯示處理複雜影像的挑戰。雖然前景可期，但目前尚未完全具備作為牙科學生教育工具的能力，需進一步發展和測試。 PubMed DOI

Performance of large language artificial intelligence models on solving restorative dentistry and endodontics student assessments.
大型語言人工智慧模型在解決修復牙科和根管治療學生評估中的表現。 Clin Oral Investig 2024-10-07

這項研究分析了不同大型語言模型（LLMs）在牙科和根管治療學生評估中的表現。共測試151道選擇題，結果顯示ChatGPT-4.0o的準確率最高，達72%，其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯，特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題，但效果因模型而異，顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

Evaluating Large Language Models in Dental Anesthesiology: A Comparative Analysis of ChatGPT-4, Claude 3 Opus, and Gemini 1.0 on the Japanese Dental Society of Anesthesiology Board Certification Exam.
評估大型語言模型在牙科麻醉學中的應用：ChatGPT-4、Claude 3 Opus 和 Gemini 1.0 在日本牙科麻醉學會董事認證考試中的比較分析。 Cureus 2024-10-29

本研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示，ChatGPT-4的正確率為51.2%，Claude 3 Opus為47.4%，而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳，但目前的正確率仍不足以支持臨床應用。研究指出，需改善高品質資訊的可獲得性及提示設計，以提升LLMs在牙科麻醉的實用性。 PubMed DOI

Evidence-Based Potential of Generative Artificial Intelligence Large Language Models on Dental Avulsion: ChatGPT Versus Gemini.
基於證據的生成式人工智慧大型語言模型在牙齒脫落中的潛力：ChatGPT 與 Gemini 的比較。 Dent Traumatol 2024-11-02

這項研究比較了ChatGPT和Gemini兩個AI語言模型在牙齒脫位問題上的回答準確性。研究使用了33個問題，並由四位小兒牙醫評估回答。結果顯示，Gemini的平均得分顯著高於ChatGPT（p = 0.001）。雖然ChatGPT在開放式問題和是非題上表現較好，但在選擇題上不佳。整體來看，Gemini的回答更準確（p = 0.004）。這些結果顯示兩個模型在牙科領域有潛力，但仍需進一步研究和改進。 PubMed DOI

Performance of ChatGPT-3.5 and ChatGPT-4o in the Japanese National Dental Examination.
ChatGPT-3.5 和 ChatGPT-4o 在日本國家牙科考試中的表現。 J Dent Educ 2024-11-14

這項研究比較了ChatGPT-3.5和ChatGPT-4o在日本國家牙科考試中的表現，分析了1399道問題。結果顯示，ChatGPT-4o的正確回答率達84.63%，明顯高於ChatGPT-3.5的45.46%。特別是在口腔外科、病理學、藥理學和微生物學等領域，ChatGPT-4o的表現更為優異。這些結果顯示，ChatGPT-4o可作為牙科教育和考試準備的有用輔助工具，提升臨床推理和牙科知識的能力。 PubMed DOI

Artificial Intelligence's Performance on the Japanese National Dental Examination.
人工智慧在日本國家牙科考試中的表現。 Cureus 2024-12-09

這項研究評估了多種人工智慧模型在日本國家牙科考試中的表現，包括 ChatGPT 3.5、ChatGPT 4o mini 和 Gemini。分析了過去五年中 400 道必考題的 349 道，結果顯示 ChatGPT 4o mini 的表現最佳，達到兩年的及格標準，並獲得最高總分。在「社會與牙科」和「主要徵兆」類別中，ChatGPT 4o mini 明顯優於 ChatGPT 3.5。研究顯示，ChatGPT 4o mini 在牙科教育上有很大潛力，提升其能力可能對臨床應用有幫助。 PubMed DOI

Evaluating ChatGPT and Google Gemini Performance and Implications in Turkish Dental Education.
評估 ChatGPT 和 Google Gemini 在土耳其牙科教育中的表現及其影響。 Cureus 2025-01-13

這項研究分析了四個先進的人工智慧模型在回答土耳其牙科專業考試問題的表現，共240題。結果顯示，Gemini 2.0 Advanced在2020年以96.80%的準確率最佳，2021年則是ChatGPT-o1以97.88%領先。整體來看，ChatGPT-o1和Gemini 2.0的準確率分別為97.46%和97.90%，明顯優於其他模型。研究也指出，使用AI評估牙科能力的倫理問題，並建議對考試知識進行更嚴格的評估，強調AI在牙科教育中的潛在應用。 PubMed DOI

Accuracy of ChatGPT 3.5, 4.0, 4o and Gemini in diagnosing oral potentially malignant lesions based on clinical case reports and image recognition.
基於臨床案例報告和影像識別，ChatGPT 3.5、4.0、4o 和 Gemini 在診斷口腔潛在惡性病變的準確性。 Med Oral Patol Oral Cir Bucal 2025-01-26

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變（OPMLs）的準確性，特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示，GPT 4o在文本診斷中表現最佳，正確回答27個案例，其次是GPT 4.0、3.5和Gemini。在影像識別方面，GPT 4o也優於Gemini。不過，這些模型的準確性仍未達到專家水平，顯示出中等到良好的協議程度。研究指出，雖然人工智慧在診斷OPMLs上有潛力，但整合進臨床實踐時需謹慎。 PubMed DOI

Evaluating the evidence-based potential of six large language models in paediatric dentistry: a comparative study on generative artificial intelligence.
評估六種大型語言模型在兒童牙科中的循證潛力：一項關於生成式人工智慧的比較研究。 Eur Arch Paediatr Dent 2025-02-22

這項研究評估了六個大型語言模型（LLMs）在兒童牙科的有效性，包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題，並由兩位評估者根據0到10的標準進行評分。結果顯示，ChatGPT-4得分最高（8.08），其次是Gemini Advanced（8.06）和ChatGPT-4o（8.01）。雖然LLMs在支持兒童牙科方面有潛力，但專業人員應批判性地使用這些工具，並不應完全依賴。 PubMed DOI

原始文章

站上相關主題文章列表