原始文章

這項研究比較了ChatGPT和Gemini兩個AI語言模型在牙齒脫位問題上的回答準確性。研究使用了33個問題,並由四位小兒牙醫評估回答。結果顯示,Gemini的平均得分顯著高於ChatGPT(p = 0.001)。雖然ChatGPT在開放式問題和是非題上表現較好,但在選擇題上不佳。整體來看,Gemini的回答更準確(p = 0.004)。這些結果顯示兩個模型在牙科領域有潛力,但仍需進一步研究和改進。 PubMed DOI


站上相關主題文章列表

這項研究分析了三個大型語言模型(LLMs)—ChatGPT(4和3.5版)及Google Gemini—在回答美國牙周病學會的考試問題時的準確性,並與人類研究生的表現進行比較。結果顯示,ChatGPT-4的準確率達79.57%,表現最佳;Google Gemini的準確率介於70.65%到75.73%之間,優於ChatGPT-3.5,但仍低於三年級住院醫師。ChatGPT-3.5的表現最差,準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力,但也需進一步研究以克服其限制。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在牙科和根管治療學生評估中的表現。共測試151道選擇題,結果顯示ChatGPT-4.0o的準確率最高,達72%,其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯,特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題,但效果因模型而異,顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

這項研究比較了ChatGPT-3.5、ChatGPT-4和Google Gemini在正顎手術問題上的回應可靠性,使用定量分析方法。研究團隊設計了64個問題的問卷,並由兩位專家評估這三個AI的回應。結果顯示,雖然ChatGPT-3.5的可靠性得分最高,但三者表現相似。特別是Google Gemini在提供醫生建議和圖形元素方面表現優異,這在其他兩者中並未出現。研究建議未來需進一步評估AI在醫療領域的能力。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 3.5、ChatGPT 4.0和Google Gemini—在創傷性牙齒損傷(TDIs)方面的可讀性、質量和準確性。分析59個問題後發現,所有機器人的回應都難以閱讀,需具備大學程度的能力。ChatGPT 3.5的質量和可理解性最低,而ChatGPT 4.0和Google Gemini表現較佳,均獲GQS分數5。儘管ChatGPT 3.5使用廣泛,但提供的資訊有誤導性,研究強調,這些聊天機器人無法取代牙醫在複雜案例中的專業角色。 PubMed DOI

這項研究比較了三個生成式人工智慧(GAI)模型——ChatGPT4-turbo、Gemini(2024.2)和ERNIE Bot 4.0,專注於中國的口腔醫學領域。研究者提出36個問題,三位口腔醫學專家用四點李克特量表評估回應。結果顯示,Gemini表現最佳,總分218,ERNIE Bot為190,ChatGPT則是164。在病人諮詢方面,Gemini得分最高(78分),而ERNIE Bot在教學輔助上表現最佳(54分)。研究指出,GAI在翻譯、醫患溝通及科普創作上特別有用,但在文獻搜尋和報告撰寫上效果有限。總體來看,Gemini在中國的應用價值最高。 PubMed DOI

這項研究評估了三款AI聊天機器人(ChatGPT-3.5、ChatGPT-4和Google Gemini)在提供牙科植牙資訊的可靠性與實用性。研究提出75個相關問題,並由兩位專家評估回答。結果顯示,Google Gemini在可靠性和實用性上表現最佳,特別是在建議諮詢牙科專家方面,對98.7%的問題都有建議。相比之下,ChatGPT-4和ChatGPT-3.5的建議比例較低。整體而言,雖然三者皆具可接受的表現,但Google Gemini因其與專家建議的一致性而更為突出。 PubMed DOI

這項研究分析了四個先進的人工智慧模型在回答土耳其牙科專業考試問題的表現,共240題。結果顯示,Gemini 2.0 Advanced在2020年以96.80%的準確率最佳,2021年則是ChatGPT-o1以97.88%領先。整體來看,ChatGPT-o1和Gemini 2.0的準確率分別為97.46%和97.90%,明顯優於其他模型。研究也指出,使用AI評估牙科能力的倫理問題,並建議對考試知識進行更嚴格的評估,強調AI在牙科教育中的潛在應用。 PubMed DOI

這項研究評估了六款人工智慧應用程式在回答脫落牙齒緊急處理問題的表現。測試的應用程式包括不同版本的ChatGPT、Perplexity、Gemini和Copilot。結果顯示,ChatGPT 4.0的準確率最高,達95.6%,而Perplexity最低,僅67.2%。除了ChatGPT 4.0外,其他聊天機器人都不夠可靠。研究建議將國際牙科外傷學會的指導方針納入聊天機器人的資料庫,以提升準確性和可靠性。 PubMed DOI

這項研究評估了六個大型語言模型(LLMs)在兒童牙科的有效性,包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題,並由兩位評估者根據0到10的標準進行評分。結果顯示,ChatGPT-4得分最高(8.08),其次是Gemini Advanced(8.06)和ChatGPT-4o(8.01)。雖然LLMs在支持兒童牙科方面有潛力,但專業人員應批判性地使用這些工具,並不應完全依賴。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在牙植體問題上的表現,包括 ChatGPT-4.0、Gemini Pro 1.5(0801)、Claude 3 Opus 和 Qwen 2.0 72B。目的是幫助資源不足地區的醫生選擇最有效的模型,以提升牙科護理的可及性。結果顯示,ChatGPT-4.0 在簡單和複雜問題上表現最佳,Gemini Pro 1.5(0801) 在簡單問題上表現良好,但複雜問題不穩定。Qwen 2.0 72B 在特定案例上表現不錯,但變異性大,而 Claude 3 Opus 表現最差。建議使用多個模型組合以增強醫療決策能力。 PubMed DOI