原始文章

這項研究比較八種大型語言模型在土耳其牙科專科考試口腔病理學題目的表現,發現 ChatGPT o1 正確率最高(96%),Copilot 最低。不論題型,ChatGPT o1 都明顯優於其他模型。雖然 LLMs 在牙科教學有潛力,但還需要更多驗證。 PubMed DOI


站上相關主題文章列表

這項研究分析了四個先進的人工智慧模型在回答土耳其牙科專業考試問題的表現,共240題。結果顯示,Gemini 2.0 Advanced在2020年以96.80%的準確率最佳,2021年則是ChatGPT-o1以97.88%領先。整體來看,ChatGPT-o1和Gemini 2.0的準確率分別為97.46%和97.90%,明顯優於其他模型。研究也指出,使用AI評估牙科能力的倫理問題,並建議對考試知識進行更嚴格的評估,強調AI在牙科教育中的潛在應用。 PubMed DOI

這項研究評估了六種大型語言模型(LLMs)在回答牙科多選題的表現,分析了1490道來自美國國家牙科考試的題目。測試的模型包括ChatGPT 4.0 omni、Gemini Advanced 1.5 Pro等。結果顯示,Copilot(85.5%)、Claude(84.0%)和ChatGPT(83.8%)的準確性最佳。雖然這些模型在文字型問題上表現良好,但在影像型問題上則較弱。研究建議牙科專業人士和學生應使用更新的模型,以提升教育和臨床需求的滿足。 PubMed DOI

這項研究評估了四個人工智慧模型在土耳其牙科專業入學考試中的表現,包括ChatGPT-3.5、ChatGPT-4 Omni、Google Bard和Microsoft Copilot,針對口腔放射學的多選題進行分析。研究涵蓋了2012至2021年的123道題目。結果顯示,ChatGPT-4 Omni的準確率最高,達86.1%,其次是Google Bard的61.8%。而ChatGPT-3.5和Microsoft Copilot的準確率則較低,分別為43.9%和41.5%。這顯示ChatGPT-4 Omni在推理能力上更為優越,對醫療專業人員和公眾來說是個重要的教育資源。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在牙植體問題上的表現,包括 ChatGPT-4.0、Gemini Pro 1.5(0801)、Claude 3 Opus 和 Qwen 2.0 72B。目的是幫助資源不足地區的醫生選擇最有效的模型,以提升牙科護理的可及性。結果顯示,ChatGPT-4.0 在簡單和複雜問題上表現最佳,Gemini Pro 1.5(0801) 在簡單問題上表現良好,但複雜問題不穩定。Qwen 2.0 72B 在特定案例上表現不錯,但變異性大,而 Claude 3 Opus 表現最差。建議使用多個模型組合以增強醫療決策能力。 PubMed DOI

這項研究評估了五種大型語言模型(LLMs)在回答緊急牙科創傷問題的可靠性,依據國際牙科創傷學會的指導方針進行。研究結果顯示,ChatGPT 3.5的正確回答率最高(76.7%),其次是Copilot Pro(73.3%)和Copilot Free(70%)。雖然整體成功率差異不大,但Copilot和Gemini經常提供不準確的解釋,且缺乏可靠的參考資料。因此,雖然LLMs在牙科教育上有潛力,但在實踐中需謹慎使用。 PubMed DOI

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現,ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好,尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率,但效果不一定。即使表現最好的模型,可靠度也只有中等,偶爾還是會出錯,顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

這項研究比較ChatGPT-4o和Deepseek-v3在16個虛構口腔病理案例的診斷表現。結果顯示,Deepseek-v3的診斷準確度和文獻引用都比ChatGPT-4o好,平均分數也較高(4.02比3.15)。雖然兩者都能協助臨床醫師,但在文獻正確性上還有待加強。目前Deepseek-v3在口腔病理診斷方面表現較優。 PubMed DOI

研究比較四款大型語言模型在2021年土耳其醫學專科考試的表現,ChatGPT 4正確率最高(88.75%),Llama 3 70B(79.17%)、Gemini 1.5 Pro(78.13%)次之,Command R+僅50%。ChatGPT 4在基礎和臨床醫學題目都很強,顯示它和Llama 3 70B有潛力協助土耳其語醫學教育與臨床應用,其他兩款則還需加強。 PubMed DOI

最新的語言模型(像 GPT-4o、ChatGPT-4)在牙周病學筆試的表現,已經超越大四牙醫學生,分數甚至接近頂尖學生。其他免費模型(如 Claude、DeepSeek、Gemini)也都比學生高分,其中以 Claude 最突出。不過,這些 AI 的答案有時會不正確或不完整,表現也會隨時間變動。雖然它們能幫助牙醫學習,但在醫療領域還是要謹慎使用。 PubMed DOI

研究發現,ChatGPT在診斷50個口腔病灶案例時,準確度和專業醫師差不多,表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷,尤其是ChatGPT表現最突出。 PubMed DOI