原始文章

這項研究評估了大型語言模型(LLM),特別是ChatGPT 4o,生成的國家牙科考試風格問題的質量,並與人類專家設計的問題進行比較。研究於2024年6月進行,30名高年級牙科學生參與,從教科書中生成44個問題,最終選出20個LLM組問題,另一組則由兩位專家設計。分析重點在難度、區分指數和干擾項效率。結果顯示,LLM組的問題在難度和區分指數上表現優於人類組,但差異不顯著。總體來看,LLM生成的問題質量與人類專家相當。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試(NDLE)的表現。研究使用2020至2022年的考題,結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異,明顯超越其他兩者。不過,GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足,顯示出改進的空間。整體來看,這些模型在NDLE中展現出強大能力,但仍需加強某些領域。 PubMed DOI

這項研究評估了六種大型語言模型(LLMs)在回答牙科多選題的表現,分析了1490道來自美國國家牙科考試的題目。測試的模型包括ChatGPT 4.0 omni、Gemini Advanced 1.5 Pro等。結果顯示,Copilot(85.5%)、Claude(84.0%)和ChatGPT(83.8%)的準確性最佳。雖然這些模型在文字型問題上表現良好,但在影像型問題上則較弱。研究建議牙科專業人士和學生應使用更新的模型,以提升教育和臨床需求的滿足。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題,並在三種情境下測試七個高效能的LLMs。結果顯示,Doubao-pro 32k和Qwen2-72b的準確性最高,分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異,但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI

這項研究評估了六個大型語言模型(LLMs)在兒童牙科的有效性,包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題,並由兩位評估者根據0到10的標準進行評分。結果顯示,ChatGPT-4得分最高(8.08),其次是Gemini Advanced(8.06)和ChatGPT-4o(8.01)。雖然LLMs在支持兒童牙科方面有潛力,但專業人員應批判性地使用這些工具,並不應完全依賴。 PubMed DOI

這項研究評估了六款人工智慧聊天機器人在牙科修復問題上的表現,包括ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Chatsonic、Copilot和Gemini Advanced。結果顯示,ChatGPT-4、ChatGPT-4o、Chatsonic和Copilot的可靠性為「良好」,而ChatGPT-3.5和Gemini Advanced則為「尚可」。在病人相關問題中,Chatsonic表現最佳;在牙科問題中,ChatGPT-4o最突出。整體來看,這些AI在準確性和可讀性上各有優劣,顯示出在牙科領域的潛力。 PubMed DOI

這項研究評估了五種大型語言模型(LLMs)在回答緊急牙科創傷問題的可靠性,依據國際牙科創傷學會的指導方針進行。研究結果顯示,ChatGPT 3.5的正確回答率最高(76.7%),其次是Copilot Pro(73.3%)和Copilot Free(70%)。雖然整體成功率差異不大,但Copilot和Gemini經常提供不準確的解釋,且缺乏可靠的參考資料。因此,雖然LLMs在牙科教育上有潛力,但在實踐中需謹慎使用。 PubMed DOI

大型語言模型(LLMs)在教育上有潛力,但在高風險考試如牙科入學考試(DAT)的有效性仍不明朗。本研究評估了16個LLMs,包括通用和特定領域模型,針對DAT進行測試。結果顯示,GPT-4o和GPT-o1在文本問題上表現優異,特別是在自然科學和閱讀理解上。然而,所有模型在視覺空間推理方面面臨挑戰。雖然LLMs能增強知識,但在高階認知任務上仍需與教師指導結合,以提升學習效果。 PubMed DOI

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現,ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好,尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率,但效果不一定。即使表現最好的模型,可靠度也只有中等,偶爾還是會出錯,顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

這篇系統性回顧發現,大型語言模型(LLMs)在牙醫教育有潛力幫助學生學習,但常出現不可靠或虛構的資料來源,且來源透明度不足。雖然LLMs可作為輔助工具,但建議要小心使用,並需進一步研究及和可靠資料整合。 PubMed DOI

最新的語言模型(像 GPT-4o、ChatGPT-4)在牙周病學筆試的表現,已經超越大四牙醫學生,分數甚至接近頂尖學生。其他免費模型(如 Claude、DeepSeek、Gemini)也都比學生高分,其中以 Claude 最突出。不過,這些 AI 的答案有時會不正確或不完整,表現也會隨時間變動。雖然它們能幫助牙醫學習,但在醫療領域還是要謹慎使用。 PubMed DOI