Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Comprehensiveness of Large Language Models in Patient Queries on Gingival and Endodontic Health.
大型語言模型在牙齦和根管健康患者詢問中的全面性。 Int Dent J 2024-08-15

這項研究評估了兩個大型語言模型（LLMs），ChatGPT-3.5 和 ChatGPT-4，對牙齦和根管健康問題的回答效果。共提出33個問題，包含17個常識性和16個專家級問題，並以中英文呈現。三位專家對回答進行五分制評分。結果顯示，兩者在英文表現較佳，ChatGPT-4的平均得分為4.45，優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性，並指出需進一步評估LLMs以解決其在不同語言環境中的局限性，避免口腔健康資訊誤解。 PubMed DOI

Performance of large language artificial intelligence models on solving restorative dentistry and endodontics student assessments.
大型語言人工智慧模型在解決修復牙科和根管治療學生評估中的表現。 Clin Oral Investig 2024-10-07

這項研究分析了不同大型語言模型（LLMs）在牙科和根管治療學生評估中的表現。共測試151道選擇題，結果顯示ChatGPT-4.0o的準確率最高，達72%，其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯，特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題，但效果因模型而異，顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

Evaluating Large Language Models in Dental Anesthesiology: A Comparative Analysis of ChatGPT-4, Claude 3 Opus, and Gemini 1.0 on the Japanese Dental Society of Anesthesiology Board Certification Exam.
評估大型語言模型在牙科麻醉學中的應用：ChatGPT-4、Claude 3 Opus 和 Gemini 1.0 在日本牙科麻醉學會董事認證考試中的比較分析。 Cureus 2024-10-29

本研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示，ChatGPT-4的正確率為51.2%，Claude 3 Opus為47.4%，而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳，但目前的正確率仍不足以支持臨床應用。研究指出，需改善高品質資訊的可獲得性及提示設計，以提升LLMs在牙科麻醉的實用性。 PubMed DOI

Large language models in periodontology: Assessing their performance in clinically relevant questions.
牙周病學中的大型語言模型：評估其在臨床相關問題中的表現。 J Prosthet Dent 2024-11-19

這項研究評估了四個大型語言模型（LLMs）在解答牙周病學問題的可靠性，包括ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot。研究提出十個問題，並由兩位牙周病專家根據全面性、準確性、清晰度和相關性進行評分。結果顯示，ChatGPT 4.0表現最佳，而Google Gemini得分最低。雖然LLMs在臨床實踐中有潛力，但不應取代專業牙醫，因為不準確的資訊可能影響病人護理。總之，ChatGPT 4.0優於其他模型，但仍需注意其局限性。 PubMed DOI

Performance of the ChatGPT-3.5, ChatGPT-4, and Google Gemini large language models in responding to dental implantology inquiries.
ChatGPT-3.5、ChatGPT-4 和 Google Gemini 大型語言模型在回應牙科植牙問題上的表現。 J Prosthet Dent 2025-01-05

這項研究評估了三款AI聊天機器人（ChatGPT-3.5、ChatGPT-4和Google Gemini）在提供牙科植牙資訊的可靠性與實用性。研究提出75個相關問題，並由兩位專家評估回答。結果顯示，Google Gemini在可靠性和實用性上表現最佳，特別是在建議諮詢牙科專家方面，對98.7%的問題都有建議。相比之下，ChatGPT-4和ChatGPT-3.5的建議比例較低。整體而言，雖然三者皆具可接受的表現，但Google Gemini因其與專家建議的一致性而更為突出。 PubMed DOI

Accuracy of latest large language models in answering multiple choice questions in dentistry: A comparative study.
最新大型語言模型在牙科多選題回答中的準確性：一項比較研究。 PLoS One 2025-01-29

這項研究評估了六種大型語言模型（LLMs）在回答牙科多選題的表現，分析了1490道來自美國國家牙科考試的題目。測試的模型包括ChatGPT 4.0 omni、Gemini Advanced 1.5 Pro等。結果顯示，Copilot（85.5%）、Claude（84.0%）和ChatGPT（83.8%）的準確性最佳。雖然這些模型在文字型問題上表現良好，但在影像型問題上則較弱。研究建議牙科專業人士和學生應使用更新的模型，以提升教育和臨床需求的滿足。 PubMed DOI

Evaluating the evidence-based potential of six large language models in paediatric dentistry: a comparative study on generative artificial intelligence.
評估六種大型語言模型在兒童牙科中的循證潛力：一項關於生成式人工智慧的比較研究。 Eur Arch Paediatr Dent 2025-02-22

這項研究評估了六個大型語言模型（LLMs）在兒童牙科的有效性，包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題，並由兩位評估者根據0到10的標準進行評分。結果顯示，ChatGPT-4得分最高（8.08），其次是Gemini Advanced（8.06）和ChatGPT-4o（8.01）。雖然LLMs在支持兒童牙科方面有潛力，但專業人員應批判性地使用這些工具，並不應完全依賴。 PubMed DOI

Large Language Models in peri-implant disease: How well do they perform?
大型語言模型在植牙周圍疾病中的表現：它們的表現如何？ J Prosthet Dent 2025-03-07

這項研究評估了四個大型語言模型（LLMs）在回答植牙相關臨床問題的表現，特別是針對周圍植體疾病。研究者向ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot提出十個問題，並由兩位牙周病專家根據全面性、科學準確性、清晰度和相關性進行評分。結果顯示，Google Gemini Advanced表現最佳，而Google Gemini得分最低，兩者之間有顯著差異（P=.005）。研究強調牙科專業人員在使用LLMs獲取臨床資訊時需謹慎，因為這些模型無法取代專業知識。 PubMed DOI

Can Artificial Intelligence Language Models Effectively Address Dental Trauma Questions?
人工智慧語言模型能有效解決牙科創傷問題嗎？ Dent Traumatol 2025-04-02

這項研究評估了五種大型語言模型（LLMs）在回答緊急牙科創傷問題的可靠性，依據國際牙科創傷學會的指導方針進行。研究結果顯示，ChatGPT 3.5的正確回答率最高（76.7%），其次是Copilot Pro（73.3%）和Copilot Free（70%）。雖然整體成功率差異不大，但Copilot和Gemini經常提供不準確的解釋，且缺乏可靠的參考資料。因此，雖然LLMs在牙科教育上有潛力，但在實踐中需謹慎使用。 PubMed DOI

原始文章

站上相關主題文章列表