Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Can artificial intelligence models serve as patient information consultants in orthodontics?
人工智慧模型能否作為正畸學中的病患資訊顧問？ BMC Med Inform Decis Mak 2024-07-29

對於ChatGPT-3.5、ChatGPT-4、Gemini和Copilot在正畸透明矯正器的回應評估，發現幾個重點： 1. **準確性**：ChatGPT-4表現最佳，平均分數4.5，Copilot次之（4.35），其他模型差異不大。 2. **可靠性**：Copilot在可靠性上優於其他模型，Gemini也高於ChatGPT-3.5。 3. **品質**：Copilot提供的資訊最全面可信。 4. **可讀性**：所有模型的可讀性較低，Gemini表現較佳，FRES達54.12。總體來看，這些模型在準確性和可靠性上表現良好，但可讀性仍需改善，以更好地服務病人。 PubMed DOI

Assessing the Accuracy, Completeness, and Reliability of Artificial Intelligence-Generated Responses in Dentistry: A Pilot Study Evaluating the ChatGPT Model.
評估人工智慧生成的牙科回應的準確性、完整性和可靠性：一項評估 ChatGPT 模型的初步研究。 Cureus 2024-08-29

這項研究探討了ChatGPT 3.5在回答牙科問題的準確性和完整性。十位專家提出30個問題，並用李克特量表評估ChatGPT的回答。結果顯示，雖然ChatGPT的準確性（中位數5.50）和完整性（中位數2.00）表現不錯，但仍有改進空間。經過重新評估後，其表現顯著提升，顯示機器學習的潛力。不過，研究也指出仍有不準確之處，特別是參考資料，強調人類判斷在臨床決策中的重要性，以及基於證據的醫療實踐的必要性。 PubMed DOI

Performance of large language artificial intelligence models on solving restorative dentistry and endodontics student assessments.
大型語言人工智慧模型在解決修復牙科和根管治療學生評估中的表現。 Clin Oral Investig 2024-10-07

這項研究分析了不同大型語言模型（LLMs）在牙科和根管治療學生評估中的表現。共測試151道選擇題，結果顯示ChatGPT-4.0o的準確率最高，達72%，其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯，特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題，但效果因模型而異，顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

A Comparative Analysis of Responses of Artificial Intelligence Chatbots in Special Needs Dentistry.
特殊需求牙科中人工智慧聊天機器人反應的比較分析。 Pediatr Dent 2024-10-18

本研究評估九種聊天機器人在回答特殊需求牙科問題的準確性與一致性。測試結果顯示，這些機器人的平均準確率為55%，其中是非題的準確率較高（67%），而診斷問題則較低（37%）。不同機器人之間的準確性無顯著差異，但所有機器人的可靠性均可接受，Claude-instant的可靠性最高（0.93）。雖然目前臨床相關性尚未完全確立，但這些工具在特殊需求牙科領域未來可能具潛在應用價值。 PubMed DOI

Performance of Artificial Intelligence Chatbots in Responding to Patient Queries Related to Traumatic Dental Injuries: A Comparative Study.
人工智慧聊天機器人在回應與創傷性牙齒損傷相關的病人詢問中的表現：一項比較研究。 Dent Traumatol 2024-11-23

這項研究評估了三款AI聊天機器人—ChatGPT 3.5、ChatGPT 4.0和Google Gemini—在創傷性牙齒損傷（TDIs）方面的可讀性、質量和準確性。分析59個問題後發現，所有機器人的回應都難以閱讀，需具備大學程度的能力。ChatGPT 3.5的質量和可理解性最低，而ChatGPT 4.0和Google Gemini表現較佳，均獲GQS分數5。儘管ChatGPT 3.5使用廣泛，但提供的資訊有誤導性，研究強調，這些聊天機器人無法取代牙醫在複雜案例中的專業角色。 PubMed DOI

Performance of the ChatGPT-3.5, ChatGPT-4, and Google Gemini large language models in responding to dental implantology inquiries.
ChatGPT-3.5、ChatGPT-4 和 Google Gemini 大型語言模型在回應牙科植牙問題上的表現。 J Prosthet Dent 2025-01-05

這項研究評估了三款AI聊天機器人（ChatGPT-3.5、ChatGPT-4和Google Gemini）在提供牙科植牙資訊的可靠性與實用性。研究提出75個相關問題，並由兩位專家評估回答。結果顯示，Google Gemini在可靠性和實用性上表現最佳，特別是在建議諮詢牙科專家方面，對98.7%的問題都有建議。相比之下，ChatGPT-4和ChatGPT-3.5的建議比例較低。整體而言，雖然三者皆具可接受的表現，但Google Gemini因其與專家建議的一致性而更為突出。 PubMed DOI

Evaluating the evidence-based potential of six large language models in paediatric dentistry: a comparative study on generative artificial intelligence.
評估六種大型語言模型在兒童牙科中的循證潛力：一項關於生成式人工智慧的比較研究。 Eur Arch Paediatr Dent 2025-02-22

這項研究評估了六個大型語言模型（LLMs）在兒童牙科的有效性，包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題，並由兩位評估者根據0到10的標準進行評分。結果顯示，ChatGPT-4得分最高（8.08），其次是Gemini Advanced（8.06）和ChatGPT-4o（8.01）。雖然LLMs在支持兒童牙科方面有潛力，但專業人員應批判性地使用這些工具，並不應完全依賴。 PubMed DOI

Can Artificial Intelligence Language Models Effectively Address Dental Trauma Questions?
人工智慧語言模型能有效解決牙科創傷問題嗎？ Dent Traumatol 2025-04-02

這項研究評估了五種大型語言模型（LLMs）在回答緊急牙科創傷問題的可靠性，依據國際牙科創傷學會的指導方針進行。研究結果顯示，ChatGPT 3.5的正確回答率最高（76.7%），其次是Copilot Pro（73.3%）和Copilot Free（70%）。雖然整體成功率差異不大，但Copilot和Gemini經常提供不準確的解釋，且缺乏可靠的參考資料。因此，雖然LLMs在牙科教育上有潛力，但在實踐中需謹慎使用。 PubMed DOI

Evaluating the validity and consistency of artificial intelligence chatbots in responding to patients' frequently asked questions in prosthodontics.
評估人工智慧聊天機器人在義齒學中回應患者常見問題的有效性和一致性。 J Prosthet Dent 2025-04-08

這項研究評估了四款AI聊天機器人—GPT-3.5、GPT-4、Gemini和Bing—在牙齒修復學常見問題的回應效果。研究人員針對植牙、固定修復、全口假牙和可拆式部分假牙等領域設計問題，並使用統計方法分析回應。結果顯示，聊天機器人之間的有效性差異明顯，特別是Bing表現最差。雖然Bing、Gemini和GPT-4在一致性上表現尚可，但GPT-3.5則不理想。整體來看，研究強調了AI聊天機器人在提供高品質牙齒修復相關答案上的限制。 PubMed DOI

原始文章

站上相關主題文章列表