原始文章

這項研究發現,GPT-4 在擬定七大牙科專科的治療計畫上,表現比 GPT-3.5 更好,尤其在複雜病例和口腔顎面外科領域更準確一致。顯示 GPT-4 有潛力協助牙科教育和臨床決策,但還是需要專家把關。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試(NDLE)的表現。研究使用2020至2022年的考題,結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異,明顯超越其他兩者。不過,GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足,顯示出改進的空間。整體來看,這些模型在NDLE中展現出強大能力,但仍需加強某些領域。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0在提供創傷性牙齒損傷資訊上的表現,針對40個問題進行分析。主要發現包括:ChatGPT 3.5的原創回應較多,且可讀性稍好(FRES得分39.732),而4.0在定義和診斷的質量上表現較佳。雖然兩者在可讀性和可靠性上有挑戰,但仍提供高質量資訊,建議作為牙科教育的輔助資源。 PubMed DOI

這項研究探討了先進的人工智慧演算法及大型語言模型(LLMs),特別是OpenAI的ChatGPT,對牙科診斷的影響。透過公開數據集,這些模型提升了醫療專業人員的診斷能力,改善了患者與醫療提供者的溝通,並提高了臨床效率。ChatGPT-4的推出預期將對口腔外科產生重大影響。本文回顧了LLMs在牙科診斷的應用,並提出未來研究方向,評估人工智慧在醫療領域的潛力與挑戰。 PubMed DOI

這項研究評估了六個大型語言模型(LLMs)在兒童牙科的有效性,包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題,並由兩位評估者根據0到10的標準進行評分。結果顯示,ChatGPT-4得分最高(8.08),其次是Gemini Advanced(8.06)和ChatGPT-4o(8.01)。雖然LLMs在支持兒童牙科方面有潛力,但專業人員應批判性地使用這些工具,並不應完全依賴。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在牙植體問題上的表現,包括 ChatGPT-4.0、Gemini Pro 1.5(0801)、Claude 3 Opus 和 Qwen 2.0 72B。目的是幫助資源不足地區的醫生選擇最有效的模型,以提升牙科護理的可及性。結果顯示,ChatGPT-4.0 在簡單和複雜問題上表現最佳,Gemini Pro 1.5(0801) 在簡單問題上表現良好,但複雜問題不穩定。Qwen 2.0 72B 在特定案例上表現不錯,但變異性大,而 Claude 3 Opus 表現最差。建議使用多個模型組合以增強醫療決策能力。 PubMed DOI

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現,ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好,尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率,但效果不一定。即使表現最好的模型,可靠度也只有中等,偶爾還是會出錯,顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

這篇系統性回顧發現,ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果,尤其在產生手術同意書和術後支持表現不錯,但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具,需專業人員監督,不能完全取代醫師判斷。 PubMed DOI

這項研究發現,ChatGPT-4 在回答牙髓病學問題時,準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好,錯誤率也最低。不過,所有 AI 聊天機器人偶爾還是會出錯,所以臨床上用這些工具時要特別注意。 PubMed DOI

最新的語言模型(像 GPT-4o、ChatGPT-4)在牙周病學筆試的表現,已經超越大四牙醫學生,分數甚至接近頂尖學生。其他免費模型(如 Claude、DeepSeek、Gemini)也都比學生高分,其中以 Claude 最突出。不過,這些 AI 的答案有時會不正確或不完整,表現也會隨時間變動。雖然它們能幫助牙醫學習,但在醫療領域還是要謹慎使用。 PubMed DOI

這項研究發現,GPT-4在口腔顎面外科專科考題的整體正確率為62%,對藥理學和解剖學表現較好,但在牙科植體和正顎手術等專業題目較弱。顯示GPT-4對一般醫學教育有幫助,但在專業領域還有待加強,未來應持續改進才能應用於進階醫療。 PubMed DOI