原始文章

這項研究評估了五種大型語言模型(LLMs)在回答緊急牙科創傷問題的可靠性,依據國際牙科創傷學會的指導方針進行。研究結果顯示,ChatGPT 3.5的正確回答率最高(76.7%),其次是Copilot Pro(73.3%)和Copilot Free(70%)。雖然整體成功率差異不大,但Copilot和Gemini經常提供不準確的解釋,且缺乏可靠的參考資料。因此,雖然LLMs在牙科教育上有潛力,但在實踐中需謹慎使用。 PubMed DOI


站上相關主題文章列表

這項研究比較了ChatGPT和Gemini兩個AI語言模型在牙齒脫位問題上的回答準確性。研究使用了33個問題,並由四位小兒牙醫評估回答。結果顯示,Gemini的平均得分顯著高於ChatGPT(p = 0.001)。雖然ChatGPT在開放式問題和是非題上表現較好,但在選擇題上不佳。整體來看,Gemini的回答更準確(p = 0.004)。這些結果顯示兩個模型在牙科領域有潛力,但仍需進一步研究和改進。 PubMed DOI

這項研究評估了三款AI聊天機器人(ChatGPT-3.5、ChatGPT-4和Google Gemini)在提供牙科植牙資訊的可靠性與實用性。研究提出75個相關問題,並由兩位專家評估回答。結果顯示,Google Gemini在可靠性和實用性上表現最佳,特別是在建議諮詢牙科專家方面,對98.7%的問題都有建議。相比之下,ChatGPT-4和ChatGPT-3.5的建議比例較低。整體而言,雖然三者皆具可接受的表現,但Google Gemini因其與專家建議的一致性而更為突出。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0在提供創傷性牙齒損傷資訊上的表現,針對40個問題進行分析。主要發現包括:ChatGPT 3.5的原創回應較多,且可讀性稍好(FRES得分39.732),而4.0在定義和診斷的質量上表現較佳。雖然兩者在可讀性和可靠性上有挑戰,但仍提供高質量資訊,建議作為牙科教育的輔助資源。 PubMed DOI

這項研究評估了六款人工智慧應用程式在回答脫落牙齒緊急處理問題的表現。測試的應用程式包括不同版本的ChatGPT、Perplexity、Gemini和Copilot。結果顯示,ChatGPT 4.0的準確率最高,達95.6%,而Perplexity最低,僅67.2%。除了ChatGPT 4.0外,其他聊天機器人都不夠可靠。研究建議將國際牙科外傷學會的指導方針納入聊天機器人的資料庫,以提升準確性和可靠性。 PubMed DOI

這項研究評估了六種大型語言模型(LLMs)在回答牙科多選題的表現,分析了1490道來自美國國家牙科考試的題目。測試的模型包括ChatGPT 4.0 omni、Gemini Advanced 1.5 Pro等。結果顯示,Copilot(85.5%)、Claude(84.0%)和ChatGPT(83.8%)的準確性最佳。雖然這些模型在文字型問題上表現良好,但在影像型問題上則較弱。研究建議牙科專業人士和學生應使用更新的模型,以提升教育和臨床需求的滿足。 PubMed DOI

這項研究評估了六個大型語言模型(LLMs)在兒童牙科的有效性,包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題,並由兩位評估者根據0到10的標準進行評分。結果顯示,ChatGPT-4得分最高(8.08),其次是Gemini Advanced(8.06)和ChatGPT-4o(8.01)。雖然LLMs在支持兒童牙科方面有潛力,但專業人員應批判性地使用這些工具,並不應完全依賴。 PubMed DOI

這項研究評估了六款人工智慧聊天機器人在牙科修復問題上的表現,包括ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Chatsonic、Copilot和Gemini Advanced。結果顯示,ChatGPT-4、ChatGPT-4o、Chatsonic和Copilot的可靠性為「良好」,而ChatGPT-3.5和Gemini Advanced則為「尚可」。在病人相關問題中,Chatsonic表現最佳;在牙科問題中,ChatGPT-4o最突出。整體來看,這些AI在準確性和可讀性上各有優劣,顯示出在牙科領域的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在回答植牙相關臨床問題的表現,特別是針對周圍植體疾病。研究者向ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot提出十個問題,並由兩位牙周病專家根據全面性、科學準確性、清晰度和相關性進行評分。結果顯示,Google Gemini Advanced表現最佳,而Google Gemini得分最低,兩者之間有顯著差異(P=.005)。研究強調牙科專業人員在使用LLMs獲取臨床資訊時需謹慎,因為這些模型無法取代專業知識。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在牙植體問題上的表現,包括 ChatGPT-4.0、Gemini Pro 1.5(0801)、Claude 3 Opus 和 Qwen 2.0 72B。目的是幫助資源不足地區的醫生選擇最有效的模型,以提升牙科護理的可及性。結果顯示,ChatGPT-4.0 在簡單和複雜問題上表現最佳,Gemini Pro 1.5(0801) 在簡單問題上表現良好,但複雜問題不穩定。Qwen 2.0 72B 在特定案例上表現不錯,但變異性大,而 Claude 3 Opus 表現最差。建議使用多個模型組合以增強醫療決策能力。 PubMed DOI

這項研究比較四種AI模型在回答再生性牙髓治療問題時的準確度,發現沒有一款AI能超過八成正確率。用英文提問、加上明確提示語時,Claude表現最好;Grok用土耳其語、沒提示語時最差。整體來說,AI目前還不適合直接用在臨床決策,建議還是要參考專業指引,未來AI在牙科領域還有進步空間。 PubMed DOI