Evidence-Based Potential of Generative Artificial Intelligence Large Language Models on Dental Avulsion: ChatGPT Versus Gemini.
基於證據的生成式人工智慧大型語言模型在牙齒脫落中的潛力：ChatGPT 與 Gemini 的比較。 Dent Traumatol 2024-11-02

這項研究比較了ChatGPT和Gemini兩個AI語言模型在牙齒脫位問題上的回答準確性。研究使用了33個問題，並由四位小兒牙醫評估回答。結果顯示，Gemini的平均得分顯著高於ChatGPT（p = 0.001）。雖然ChatGPT在開放式問題和是非題上表現較好，但在選擇題上不佳。整體來看，Gemini的回答更準確（p = 0.004）。這些結果顯示兩個模型在牙科領域有潛力，但仍需進一步研究和改進。 PubMed DOI

Evaluation of different artificial intelligence applications in responding to regenerative endodontic procedures.
評估不同人工智慧應用於再生性根管治療的反應。 BMC Oral Health 2025-01-11

這項研究探討了不同AI聊天機器人對再生性根管治療的回應準確性。研究人員根據美國根管治療學會的指導方針，設計了23個問題，並向三個AI平台詢問，收集了1,380個回應。結果顯示，帶有PDF插件的ChatGPT-4的正確率最高，達98.1%，而Gemini最低，僅48%。雖然其他平台有潛力，但在臨床應用上仍需改進。研究建議未來開發專為根管治療設計的AI工具。 PubMed DOI

Evaluating ChatGPT and Google Gemini Performance and Implications in Turkish Dental Education.
評估 ChatGPT 和 Google Gemini 在土耳其牙科教育中的表現及其影響。 Cureus 2025-01-13

這項研究分析了四個先進的人工智慧模型在回答土耳其牙科專業考試問題的表現，共240題。結果顯示，Gemini 2.0 Advanced在2020年以96.80%的準確率最佳，2021年則是ChatGPT-o1以97.88%領先。整體來看，ChatGPT-o1和Gemini 2.0的準確率分別為97.46%和97.90%，明顯優於其他模型。研究也指出，使用AI評估牙科能力的倫理問題，並建議對考試知識進行更嚴格的評估，強調AI在牙科教育中的潛在應用。 PubMed DOI

Evaluating the Accuracy, Reliability, Consistency, and Readability of Different Large Language Models in Restorative Dentistry.
評估不同大型語言模型在修復牙科中的準確性、可靠性、一致性和可讀性。 J Esthet Restor Dent 2025-03-03

這項研究評估了六款人工智慧聊天機器人在牙科修復問題上的表現，包括ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Chatsonic、Copilot和Gemini Advanced。結果顯示，ChatGPT-4、ChatGPT-4o、Chatsonic和Copilot的可靠性為「良好」，而ChatGPT-3.5和Gemini Advanced則為「尚可」。在病人相關問題中，Chatsonic表現最佳；在牙科問題中，ChatGPT-4o最突出。整體來看，這些AI在準確性和可讀性上各有優劣，顯示出在牙科領域的潛力。 PubMed DOI

Effectiveness of various general large language models in clinical consensus and case analysis in dental implantology: a comparative study.
各種大型通用語言模型在牙科植牙臨床共識和案例分析中的有效性：一項比較研究。 BMC Med Inform Decis Mak 2025-03-27

這項研究評估了四個大型語言模型（LLMs）在牙植體問題上的表現，包括 ChatGPT-4.0、Gemini Pro 1.5(0801)、Claude 3 Opus 和 Qwen 2.0 72B。目的是幫助資源不足地區的醫生選擇最有效的模型，以提升牙科護理的可及性。結果顯示，ChatGPT-4.0 在簡單和複雜問題上表現最佳，Gemini Pro 1.5(0801) 在簡單問題上表現良好，但複雜問題不穩定。Qwen 2.0 72B 在特定案例上表現不錯，但變異性大，而 Claude 3 Opus 表現最差。建議使用多個模型組合以增強醫療決策能力。 PubMed DOI

Can Artificial Intelligence Language Models Effectively Address Dental Trauma Questions?
人工智慧語言模型能有效解決牙科創傷問題嗎？ Dent Traumatol 2025-04-02

這項研究評估了五種大型語言模型（LLMs）在回答緊急牙科創傷問題的可靠性，依據國際牙科創傷學會的指導方針進行。研究結果顯示，ChatGPT 3.5的正確回答率最高（76.7%），其次是Copilot Pro（73.3%）和Copilot Free（70%）。雖然整體成功率差異不大，但Copilot和Gemini經常提供不準確的解釋，且缺乏可靠的參考資料。因此，雖然LLMs在牙科教育上有潛力，但在實踐中需謹慎使用。 PubMed DOI

Accuracy, Consistency, and Contextual Understanding of Large Language Models in Restorative Dentistry and Endodontics.
大型語言模型在修復牙科與牙髓病學中的準確性、一致性與情境理解 J Dent 2025-04-17

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現，ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好，尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率，但效果不一定。即使表現最好的模型，可靠度也只有中等，偶爾還是會出錯，顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

Evaluation of the performance of large language models in clinical decision-making in endodontics.
大型語言模型在牙髓病學臨床決策中的表現評估 BMC Oral Health 2025-04-28

這項研究發現，ChatGPT-4 在回答牙髓病學問題時，準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好，錯誤率也最低。不過，所有 AI 聊天機器人偶爾還是會出錯，所以臨床上用這些工具時要特別注意。 PubMed DOI

Assessment of various artificial intelligence applications in responding to technical questions in endodontic surgery.
各種人工智慧應用於回應牙髓手術技術問題之評估 BMC Oral Health 2025-05-22

這項研究發現，ScholarGPT 在牙髓根尖手術問題的答題正確率最高，達97.7%，優於 ChatGPT-4o（90.1%）和 Google Gemini（59.5%）。主要原因是 ScholarGPT 有用學術資料庫，答案更精確。結果顯示，專為學術領域訓練的 GPT 模型在牙科主題上較可靠，但仍需更多研究來開發專門的牙髓病學模型。 PubMed DOI

Accuracy and Reliability of Artificial Intelligence Chatbots as Public Information Sources in Implant Dentistry.
人工智慧聊天機器人在植體牙科作為公共資訊來源的準確性與可靠性 Int J Oral Maxillofac Implants 2025-06-25

這項研究比較了ChatGPT-3.5、Gemini和Copilot三款AI聊天機器人在回答植牙常見問題時的表現。結果發現，三者正確性差不多，但Gemini的答案較完整，Copilot的一致性最好。不過，三款AI的正確率都不高，建議不能直接用來做牙科決策，還是要依靠專業醫師判斷。 PubMed DOI

原始文章

站上相關主題文章列表