原始文章

這項研究評估了五種大型語言模型(LLMs)在回答緊急牙科創傷問題的可靠性,依據國際牙科創傷學會的指導方針進行。研究結果顯示,ChatGPT 3.5的正確回答率最高(76.7%),其次是Copilot Pro(73.3%)和Copilot Free(70%)。雖然整體成功率差異不大,但Copilot和Gemini經常提供不準確的解釋,且缺乏可靠的參考資料。因此,雖然LLMs在牙科教育上有潛力,但在實踐中需謹慎使用。 PubMed DOI


站上相關主題文章列表

這項研究分析了三個大型語言模型(LLMs)—ChatGPT(4和3.5版)及Google Gemini—在回答美國牙周病學會的考試問題時的準確性,並與人類研究生的表現進行比較。結果顯示,ChatGPT-4的準確率達79.57%,表現最佳;Google Gemini的準確率介於70.65%到75.73%之間,優於ChatGPT-3.5,但仍低於三年級住院醫師。ChatGPT-3.5的表現最差,準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力,但也需進一步研究以克服其限制。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在牙科和根管治療學生評估中的表現。共測試151道選擇題,結果顯示ChatGPT-4.0o的準確率最高,達72%,其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯,特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題,但效果因模型而異,顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

**引言** 隨著人工智慧的發展,大型語言模型(LLMs)在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本,潛在地提升臨床實踐和病人教育,但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識,透過分析它們對全國牙科考試(INBDE)問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs,針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高,達75.88%;Claude-2.1為66.38%;Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力,並強調選擇合適模型的重要性,但在臨床應用前仍需克服一些挑戰。 PubMed DOI

這項研究比較了ChatGPT和Gemini兩個AI語言模型在牙齒脫位問題上的回答準確性。研究使用了33個問題,並由四位小兒牙醫評估回答。結果顯示,Gemini的平均得分顯著高於ChatGPT(p = 0.001)。雖然ChatGPT在開放式問題和是非題上表現較好,但在選擇題上不佳。整體來看,Gemini的回答更準確(p = 0.004)。這些結果顯示兩個模型在牙科領域有潛力,但仍需進一步研究和改進。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在解答牙周病學問題的可靠性,包括ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot。研究提出十個問題,並由兩位牙周病專家根據全面性、準確性、清晰度和相關性進行評分。結果顯示,ChatGPT 4.0表現最佳,而Google Gemini得分最低。雖然LLMs在臨床實踐中有潛力,但不應取代專業牙醫,因為不準確的資訊可能影響病人護理。總之,ChatGPT 4.0優於其他模型,但仍需注意其局限性。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 3.5、ChatGPT 4.0和Google Gemini—在創傷性牙齒損傷(TDIs)方面的可讀性、質量和準確性。分析59個問題後發現,所有機器人的回應都難以閱讀,需具備大學程度的能力。ChatGPT 3.5的質量和可理解性最低,而ChatGPT 4.0和Google Gemini表現較佳,均獲GQS分數5。儘管ChatGPT 3.5使用廣泛,但提供的資訊有誤導性,研究強調,這些聊天機器人無法取代牙醫在複雜案例中的專業角色。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在口腔與顏面外科(OMS)考試問題上的表現,使用了714個問題。結果顯示,GPT-4o的準確率最高,達83.69%,明顯優於Gemini(66.85%)、GPT-3.5(64.83%)和Copilot(62.18%)。此外,GPT-4o在修正錯誤方面也表現優異,修正率高達98.2%。這些結果顯示,GPT-4o在OMS教育中具有潛力,但不同主題的表現差異顯示出進一步精煉和評估的必要性。 PubMed DOI

這項研究評估了六個大型語言模型(LLMs)在兒童牙科的有效性,包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題,並由兩位評估者根據0到10的標準進行評分。結果顯示,ChatGPT-4得分最高(8.08),其次是Gemini Advanced(8.06)和ChatGPT-4o(8.01)。雖然LLMs在支持兒童牙科方面有潛力,但專業人員應批判性地使用這些工具,並不應完全依賴。 PubMed DOI

這項研究評估了六款人工智慧聊天機器人在牙科修復問題上的表現,包括ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Chatsonic、Copilot和Gemini Advanced。結果顯示,ChatGPT-4、ChatGPT-4o、Chatsonic和Copilot的可靠性為「良好」,而ChatGPT-3.5和Gemini Advanced則為「尚可」。在病人相關問題中,Chatsonic表現最佳;在牙科問題中,ChatGPT-4o最突出。整體來看,這些AI在準確性和可讀性上各有優劣,顯示出在牙科領域的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在牙植體問題上的表現,包括 ChatGPT-4.0、Gemini Pro 1.5(0801)、Claude 3 Opus 和 Qwen 2.0 72B。目的是幫助資源不足地區的醫生選擇最有效的模型,以提升牙科護理的可及性。結果顯示,ChatGPT-4.0 在簡單和複雜問題上表現最佳,Gemini Pro 1.5(0801) 在簡單問題上表現良好,但複雜問題不穩定。Qwen 2.0 72B 在特定案例上表現不錯,但變異性大,而 Claude 3 Opus 表現最差。建議使用多個模型組合以增強醫療決策能力。 PubMed DOI