Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Performance of large language artificial intelligence models on solving restorative dentistry and endodontics student assessments.
大型語言人工智慧模型在解決修復牙科和根管治療學生評估中的表現。 Clin Oral Investig 2024-10-07

這項研究分析了不同大型語言模型（LLMs）在牙科和根管治療學生評估中的表現。共測試151道選擇題，結果顯示ChatGPT-4.0o的準確率最高，達72%，其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯，特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題，但效果因模型而異，顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

ScholarGPT's performance in oral and maxillofacial surgery.
ScholarGPT 在口腔與顏面外科的表現。 J Stomatol Oral Maxillofac Surg 2024-10-10

這項研究評估了Scholar GPT在口腔及顏面外科技術問題上的表現，並與ChatGPT進行比較。共評估60個問題，涵蓋阻生牙、牙齒植體等主題。結果顯示，Scholar GPT的全球質量評分平均為4.48，明顯高於ChatGPT的3.1，且提供的回應更一致且高品質。研究建議，利用學術資料庫的GPT模型能產生更準確的信息，並建議開發專門針對口腔及顏面外科的模型，以提升AI生成內容的質量。 PubMed DOI

Performance of the ChatGPT-3.5, ChatGPT-4, and Google Gemini large language models in responding to dental implantology inquiries.
ChatGPT-3.5、ChatGPT-4 和 Google Gemini 大型語言模型在回應牙科植牙問題上的表現。 J Prosthet Dent 2025-01-05

這項研究評估了三款AI聊天機器人（ChatGPT-3.5、ChatGPT-4和Google Gemini）在提供牙科植牙資訊的可靠性與實用性。研究提出75個相關問題，並由兩位專家評估回答。結果顯示，Google Gemini在可靠性和實用性上表現最佳，特別是在建議諮詢牙科專家方面，對98.7%的問題都有建議。相比之下，ChatGPT-4和ChatGPT-3.5的建議比例較低。整體而言，雖然三者皆具可接受的表現，但Google Gemini因其與專家建議的一致性而更為突出。 PubMed DOI

Evaluation of different artificial intelligence applications in responding to regenerative endodontic procedures.
評估不同人工智慧應用於再生性根管治療的反應。 BMC Oral Health 2025-01-11

這項研究探討了不同AI聊天機器人對再生性根管治療的回應準確性。研究人員根據美國根管治療學會的指導方針，設計了23個問題，並向三個AI平台詢問，收集了1,380個回應。結果顯示，帶有PDF插件的ChatGPT-4的正確率最高，達98.1%，而Gemini最低，僅48%。雖然其他平台有潛力，但在臨床應用上仍需改進。研究建議未來開發專為根管治療設計的AI工具。 PubMed DOI

Evaluating ChatGPT and Google Gemini Performance and Implications in Turkish Dental Education.
評估 ChatGPT 和 Google Gemini 在土耳其牙科教育中的表現及其影響。 Cureus 2025-01-13

這項研究分析了四個先進的人工智慧模型在回答土耳其牙科專業考試問題的表現，共240題。結果顯示，Gemini 2.0 Advanced在2020年以96.80%的準確率最佳，2021年則是ChatGPT-o1以97.88%領先。整體來看，ChatGPT-o1和Gemini 2.0的準確率分別為97.46%和97.90%，明顯優於其他模型。研究也指出，使用AI評估牙科能力的倫理問題，並建議對考試知識進行更嚴格的評估，強調AI在牙科教育中的潛在應用。 PubMed DOI

Performance of Four AI Chatbots in Answering Endodontic Questions.
四款 AI 聊天機器人在回答牙髓學問題上的表現。 J Endod 2025-01-15

這項研究評估了四款人工智慧聊天機器人—ChatGPT-4o、MedGebra GPT4o、Meta Llama 3 和 Gemini Advanced，在回答牙髓學的多選題表現。從牙髓學教科書中選取100道題目，進行了兩輪測試。結果顯示，ChatGPT-4o在兩輪測試中表現最穩定，MedGebra GPT4o在第一輪達到93%的最高準確率，而ChatGPT-4o在第二輪表現最佳（90%）。Meta Llama 3的表現較弱，正確率分別為73%和75%。總體來看，ChatGPT-4o和MedGebra GPT4o在此領域表現優異，但Meta Llama 3和Gemini Advanced仍需改進。 PubMed DOI

Evaluation of the performance of large language models in clinical decision-making in endodontics.
大型語言模型在牙髓病學臨床決策中的表現評估 BMC Oral Health 2025-04-28

這項研究發現，ChatGPT-4 在回答牙髓病學問題時，準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好，錯誤率也最低。不過，所有 AI 聊天機器人偶爾還是會出錯，所以臨床上用這些工具時要特別注意。 PubMed DOI

Evaluating Large Language Models in Addressing Patient Questions on Endodontic Pain: A Comparative Analysis of accessible chatbots.
可及性聊天機器人在回應病患牙髓疼痛問題之表現評估：大型語言模型的比較分析 J Endod 2025-05-07

這項研究發現，ChatGPT 3.5回答牙髓病痛問題時，內容較完整可靠，但用詞偏難懂；Gemini則較易讀，但資訊不夠完整、可靠性較低。總結來說，AI雖能輔助衛教，仍需專業人員把關，確保資訊正確又好懂。 PubMed DOI

The Impact of Language Variability on Artificial Intelligence Performance in Regenerative Endodontics.
語言變異性對再生性牙髓治療中人工智慧表現的影響 Healthcare (Basel) 2025-05-28

這項研究比較四種AI模型在回答再生性牙髓治療問題時的準確度，發現沒有一款AI能超過八成正確率。用英文提問、加上明確提示語時，Claude表現最好；Grok用土耳其語、沒提示語時最差。整體來說，AI目前還不適合直接用在臨床決策，建議還是要參考專業指引，未來AI在牙科領域還有進步空間。 PubMed DOI

原始文章

站上相關主題文章列表