原始文章

這項研究比較了ChatGPT 3.5和Google Bard在牙科教育中的表現。研究設計了七個問題來評估這些模型的能力,包括創建練習和模擬牙科問題。結果顯示,ChatGPT 3.5在創建相關練習和評估工具方面表現較佳,而Bard在檢索和批評研究文章上更為出色。研究強調了生成語言模型在增強牙科教育的潛力,但也指出了模型表現的差異,建議對基於證據的內容生成進行針對性訓練,並提醒教育者在依賴AI進行重要決策時要謹慎。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型對牙科問題的回答,發現ChatGPT-4表現最好,但所有模型都有不準確和缺乏參考來源的問題。強調語言模型在牙科領域的潛力,但也提到目前的限制需要謹慎處理。建議牙醫要保持批判思考,並進一步研究如何安全地應用語言模型在牙科實務上,同時呼籲監管措施以監督技術使用。 PubMed DOI

2023年日本牙醫師考試研究發現,GPT-4答對率最高,Google Bard次之,GPT-3.5最差。Bard及格,GPT-4對一般問題表現好。但在牙科問題上表現不佳,需深入研究LLMs在全球臨床牙科的運用。 PubMed DOI

研究比較了ChatGPT-3.5和Google Bard兩個AI模型回答牙齒矯正問題的表現。結果發現,ChatGPT稍微勝出,兩者回答都準確完整,但Google Bard回答速度較快。總結來說,兩者都能提供正確完整的答案,Google Bard則更快速。 PubMed DOI

人工智慧技術如ChatGPT和Google Bard(現Gemini)可幫助老師出多選題,像是有關牙齲的題目。研究指出,這些模型出的問題相關性差不多,但Bard的問題比較有挑戰性。ChatGPT容易出現格式錯誤,Bard則用專業術語。兩者都有效,特別是在知識和理解方面。老師可以利用語言模型省時,專心教學,但要確保問題符合教學目標。 PubMed DOI

研究指出,微軟的 Bing Chat 在牙齒矯正領域表現最優秀,ChatGPT-4、Google Bard 和 ChatGPT-3.5次之。儘管語言模型對於牙齒矯正有潛力,但應謹慎考量其限制,不能全然依賴。在臨床應用前,仍需進行更多研究、驗證和改進。醫師在使用時應小心應對模型的限制,以免對患者造成負面影響。 PubMed DOI

研究比較Google Bard、ChatGPT-3.5和ChatGPT-4對口腔健康問題的建議效果,結果發現Google Bard易讀性高,但適當性稍差;ChatGPT-3.5和ChatGPT-4在適當性表現較好,尤其ChatGPT-4更穩定。這些模型被認為無害,對幫助性和意圖捕捉也相當。顯示大型語言模型在口腔健康護理有潛力,但仍需改進和考慮道德問題,未來研究應著重於安全整合策略。 PubMed DOI

這項研究分析了三個大型語言模型(LLMs)—ChatGPT(4和3.5版)及Google Gemini—在回答美國牙周病學會的考試問題時的準確性,並與人類研究生的表現進行比較。結果顯示,ChatGPT-4的準確率達79.57%,表現最佳;Google Gemini的準確率介於70.65%到75.73%之間,優於ChatGPT-3.5,但仍低於三年級住院醫師。ChatGPT-3.5的表現最差,準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力,但也需進一步研究以克服其限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT、Bard和Bing Chat,在牙科教育中的有效性,分析了它們在2023年日本國家牙科衛生師考試的73道問題表現。結果顯示,GPT-4的準確率最高,達75.3%,其次是Bing(68.5%)、Bard(66.7%)和GPT-3.5(63.0%)。雖然模型間差異不顯著,但在「疾病機制與促進恢復過程」類別中,所有模型均達100%準確率。整體來看,GPT-4在多選題上表現優異,顯示其在牙科衛生學習中的潛力。研究強調了LLMs在教育中的演進能力。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在牙科和根管治療學生評估中的表現。共測試151道選擇題,結果顯示ChatGPT-4.0o的準確率最高,達72%,其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯,特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題,但效果因模型而異,顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

**引言** 隨著人工智慧的發展,大型語言模型(LLMs)在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本,潛在地提升臨床實踐和病人教育,但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識,透過分析它們對全國牙科考試(INBDE)問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs,針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高,達75.88%;Claude-2.1為66.38%;Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力,並強調選擇合適模型的重要性,但在臨床應用前仍需克服一些挑戰。 PubMed DOI