原始文章

這項研究比較了ChatGPT 3.5和Google Bard在牙科教育中的表現。研究設計了七個問題來評估這些模型的能力,包括創建練習和模擬牙科問題。結果顯示,ChatGPT 3.5在創建相關練習和評估工具方面表現較佳,而Bard在檢索和批評研究文章上更為出色。研究強調了生成語言模型在增強牙科教育的潛力,但也指出了模型表現的差異,建議對基於證據的內容生成進行針對性訓練,並提醒教育者在依賴AI進行重要決策時要謹慎。 PubMed DOI


站上相關主題文章列表

這項研究分析了三個大型語言模型(LLMs)—ChatGPT(4和3.5版)及Google Gemini—在回答美國牙周病學會的考試問題時的準確性,並與人類研究生的表現進行比較。結果顯示,ChatGPT-4的準確率達79.57%,表現最佳;Google Gemini的準確率介於70.65%到75.73%之間,優於ChatGPT-3.5,但仍低於三年級住院醫師。ChatGPT-3.5的表現最差,準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力,但也需進一步研究以克服其限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT、Bard和Bing Chat,在牙科教育中的有效性,分析了它們在2023年日本國家牙科衛生師考試的73道問題表現。結果顯示,GPT-4的準確率最高,達75.3%,其次是Bing(68.5%)、Bard(66.7%)和GPT-3.5(63.0%)。雖然模型間差異不顯著,但在「疾病機制與促進恢復過程」類別中,所有模型均達100%準確率。整體來看,GPT-4在多選題上表現優異,顯示其在牙科衛生學習中的潛力。研究強調了LLMs在教育中的演進能力。 PubMed DOI

最近,OpenAI的ChatGPT在醫療和教育領域的應用引起關注。一項研究評估了ChatGPT在牙科考試中的表現,發現其在知識性問題上達到80%的準確率,尤其是ChatGPT 4在牙科入學考試中表現優異,知識性問題準確率高達94%。雖然在數學分析方面表現不佳,但整體來看,ChatGPT有潛力提升牙科教育和實踐,特別是在特定領域的進一步改進上。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在牙科和根管治療學生評估中的表現。共測試151道選擇題,結果顯示ChatGPT-4.0o的準確率最高,達72%,其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯,特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題,但效果因模型而異,顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

**引言** 隨著人工智慧的發展,大型語言模型(LLMs)在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本,潛在地提升臨床實踐和病人教育,但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識,透過分析它們對全國牙科考試(INBDE)問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs,針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高,達75.88%;Claude-2.1為66.38%;Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力,並強調選擇合適模型的重要性,但在臨床應用前仍需克服一些挑戰。 PubMed DOI

這項研究評估了六個大型語言模型(LLMs)在兒童牙科的有效性,包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題,並由兩位評估者根據0到10的標準進行評分。結果顯示,ChatGPT-4得分最高(8.08),其次是Gemini Advanced(8.06)和ChatGPT-4o(8.01)。雖然LLMs在支持兒童牙科方面有潛力,但專業人員應批判性地使用這些工具,並不應完全依賴。 PubMed DOI

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現,ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好,尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率,但效果不一定。即使表現最好的模型,可靠度也只有中等,偶爾還是會出錯,顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

這項研究發現,ChatGPT-4 在回答牙髓病學問題時,準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好,錯誤率也最低。不過,所有 AI 聊天機器人偶爾還是會出錯,所以臨床上用這些工具時要特別注意。 PubMed DOI

最新的語言模型(像 GPT-4o、ChatGPT-4)在牙周病學筆試的表現,已經超越大四牙醫學生,分數甚至接近頂尖學生。其他免費模型(如 Claude、DeepSeek、Gemini)也都比學生高分,其中以 Claude 最突出。不過,這些 AI 的答案有時會不正確或不完整,表現也會隨時間變動。雖然它們能幫助牙醫學習,但在醫療領域還是要謹慎使用。 PubMed DOI

這項研究發現,GPT-4 在擬定七大牙科專科的治療計畫上,表現比 GPT-3.5 更好,尤其在複雜病例和口腔顎面外科領域更準確一致。顯示 GPT-4 有潛力協助牙科教育和臨床決策,但還是需要專家把關。 PubMed DOI