原始文章

這項研究比較四種AI模型在回答再生性牙髓治療問題時的準確度,發現沒有一款AI能超過八成正確率。用英文提問、加上明確提示語時,Claude表現最好;Grok用土耳其語、沒提示語時最差。整體來說,AI目前還不適合直接用在臨床決策,建議還是要參考專業指引,未來AI在牙科領域還有進步空間。 PubMed DOI


站上相關主題文章列表

這項研究分析了三個大型語言模型(LLMs)—ChatGPT(4和3.5版)及Google Gemini—在回答美國牙周病學會的考試問題時的準確性,並與人類研究生的表現進行比較。結果顯示,ChatGPT-4的準確率達79.57%,表現最佳;Google Gemini的準確率介於70.65%到75.73%之間,優於ChatGPT-3.5,但仍低於三年級住院醫師。ChatGPT-3.5的表現最差,準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力,但也需進一步研究以克服其限制。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在牙科和根管治療學生評估中的表現。共測試151道選擇題,結果顯示ChatGPT-4.0o的準確率最高,達72%,其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯,特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題,但效果因模型而異,顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

這項研究探討了不同AI聊天機器人對再生性根管治療的回應準確性。研究人員根據美國根管治療學會的指導方針,設計了23個問題,並向三個AI平台詢問,收集了1,380個回應。結果顯示,帶有PDF插件的ChatGPT-4的正確率最高,達98.1%,而Gemini最低,僅48%。雖然其他平台有潛力,但在臨床應用上仍需改進。研究建議未來開發專為根管治療設計的AI工具。 PubMed DOI

這項研究分析了四個先進的人工智慧模型在回答土耳其牙科專業考試問題的表現,共240題。結果顯示,Gemini 2.0 Advanced在2020年以96.80%的準確率最佳,2021年則是ChatGPT-o1以97.88%領先。整體來看,ChatGPT-o1和Gemini 2.0的準確率分別為97.46%和97.90%,明顯優於其他模型。研究也指出,使用AI評估牙科能力的倫理問題,並建議對考試知識進行更嚴格的評估,強調AI在牙科教育中的潛在應用。 PubMed DOI

這項研究評估了六款人工智慧聊天機器人在牙科修復問題上的表現,包括ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Chatsonic、Copilot和Gemini Advanced。結果顯示,ChatGPT-4、ChatGPT-4o、Chatsonic和Copilot的可靠性為「良好」,而ChatGPT-3.5和Gemini Advanced則為「尚可」。在病人相關問題中,Chatsonic表現最佳;在牙科問題中,ChatGPT-4o最突出。整體來看,這些AI在準確性和可讀性上各有優劣,顯示出在牙科領域的潛力。 PubMed DOI

這項研究評估了五種大型語言模型(LLMs)在回答緊急牙科創傷問題的可靠性,依據國際牙科創傷學會的指導方針進行。研究結果顯示,ChatGPT 3.5的正確回答率最高(76.7%),其次是Copilot Pro(73.3%)和Copilot Free(70%)。雖然整體成功率差異不大,但Copilot和Gemini經常提供不準確的解釋,且缺乏可靠的參考資料。因此,雖然LLMs在牙科教育上有潛力,但在實踐中需謹慎使用。 PubMed DOI

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現,ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好,尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率,但效果不一定。即使表現最好的模型,可靠度也只有中等,偶爾還是會出錯,顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

這項研究發現,ChatGPT-4 在回答牙髓病學問題時,準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好,錯誤率也最低。不過,所有 AI 聊天機器人偶爾還是會出錯,所以臨床上用這些工具時要特別注意。 PubMed DOI

這項研究發現,ScholarGPT 在牙髓根尖手術問題的答題正確率最高,達97.7%,優於 ChatGPT-4o(90.1%)和 Google Gemini(59.5%)。主要原因是 ScholarGPT 有用學術資料庫,答案更精確。結果顯示,專為學術領域訓練的 GPT 模型在牙科主題上較可靠,但仍需更多研究來開發專門的牙髓病學模型。 PubMed DOI

這項研究比較了ChatGPT-3.5、Gemini和Copilot三款AI聊天機器人在回答植牙常見問題時的表現。結果發現,三者正確性差不多,但Gemini的答案較完整,Copilot的一致性最好。不過,三款AI的正確率都不高,建議不能直接用來做牙科決策,還是要依靠專業醫師判斷。 PubMed DOI