原始文章

大型語言模型(LLMs)在教育上有潛力,但在高風險考試如牙科入學考試(DAT)的有效性仍不明朗。本研究評估了16個LLMs,包括通用和特定領域模型,針對DAT進行測試。結果顯示,GPT-4o和GPT-o1在文本問題上表現優異,特別是在自然科學和閱讀理解上。然而,所有模型在視覺空間推理方面面臨挑戰。雖然LLMs能增強知識,但在高階認知任務上仍需與教師指導結合,以提升學習效果。 PubMed DOI


站上相關主題文章列表

研究比較四個大型語言模型對牙科問題的回答,發現ChatGPT-4表現最好,但所有模型都有不準確和缺乏參考來源的問題。強調語言模型在牙科領域的潛力,但也提到目前的限制需要謹慎處理。建議牙醫要保持批判思考,並進一步研究如何安全地應用語言模型在牙科實務上,同時呼籲監管措施以監督技術使用。 PubMed DOI

這項研究分析了三個大型語言模型(LLMs)—ChatGPT(4和3.5版)及Google Gemini—在回答美國牙周病學會的考試問題時的準確性,並與人類研究生的表現進行比較。結果顯示,ChatGPT-4的準確率達79.57%,表現最佳;Google Gemini的準確率介於70.65%到75.73%之間,優於ChatGPT-3.5,但仍低於三年級住院醫師。ChatGPT-3.5的表現最差,準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力,但也需進一步研究以克服其限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT、Bard和Bing Chat,在牙科教育中的有效性,分析了它們在2023年日本國家牙科衛生師考試的73道問題表現。結果顯示,GPT-4的準確率最高,達75.3%,其次是Bing(68.5%)、Bard(66.7%)和GPT-3.5(63.0%)。雖然模型間差異不顯著,但在「疾病機制與促進恢復過程」類別中,所有模型均達100%準確率。整體來看,GPT-4在多選題上表現優異,顯示其在牙科衛生學習中的潛力。研究強調了LLMs在教育中的演進能力。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Claude3-Opus,在牙科教育及實踐中的應用,特別是它們在韓國牙科執照考試(KDLE)的表現。評估涵蓋了GPT-3.5、GPT-4和Claude3-Opus,考題來自2019至2023年。結果顯示,Claude3-Opus表現優於其他模型,除了2019年時ChatGPT-4最佳。Claude3-Opus和ChatGPT-4通過了及格分數,但ChatGPT-3.5未能通過。所有LLMs的得分仍低於人類牙科學生,僅約85.4%。研究建議,雖然LLMs尚未達到人類水平,但仍可在牙科領域提供有價值的支持。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在牙科和根管治療學生評估中的表現。共測試151道選擇題,結果顯示ChatGPT-4.0o的準確率最高,達72%,其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯,特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題,但效果因模型而異,顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

**引言** 隨著人工智慧的發展,大型語言模型(LLMs)在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本,潛在地提升臨床實踐和病人教育,但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識,透過分析它們對全國牙科考試(INBDE)問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs,針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高,達75.88%;Claude-2.1為66.38%;Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力,並強調選擇合適模型的重要性,但在臨床應用前仍需克服一些挑戰。 PubMed DOI

這項研究系統性回顧並進行元分析,評估大型語言模型(LLMs)在全球牙科執照考試中的表現。研究涵蓋2022年1月至2024年5月的相關文獻,共納入11項研究,來自8個國家。結果顯示,GPT-3.5、GPT-4和Bard的準確率分別為54%、72%和56%,其中GPT-4表現最佳,通過超過一半的考試。雖然LLMs在牙科教育和診斷中顯示潛力,但整體準確性仍低於臨床應用標準,主要因為訓練數據不足及影像診斷挑戰,因此目前不適合用於牙科教育和臨床診斷。 PubMed DOI

這項研究評估了大型語言模型(LLMs)如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試(NDLE)的表現。研究使用2020至2022年的考題,結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異,明顯超越其他兩者。不過,GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足,顯示出改進的空間。整體來看,這些模型在NDLE中展現出強大能力,但仍需加強某些領域。 PubMed DOI

這項研究評估了六種大型語言模型(LLMs)在回答牙科多選題的表現,分析了1490道來自美國國家牙科考試的題目。測試的模型包括ChatGPT 4.0 omni、Gemini Advanced 1.5 Pro等。結果顯示,Copilot(85.5%)、Claude(84.0%)和ChatGPT(83.8%)的準確性最佳。雖然這些模型在文字型問題上表現良好,但在影像型問題上則較弱。研究建議牙科專業人士和學生應使用更新的模型,以提升教育和臨床需求的滿足。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在中國醫學教育CDLE考試中的表現。研究人員選擇並修訂了200道考題,並在三種情境下測試七個高效能的LLMs。結果顯示,Doubao-pro 32k和Qwen2-72b的準確性最高,分別達到81%和98%的最佳一致性比率。雖然模型之間的教學效果有顯著差異,但都能提供有效的教學內容。研究建議未來應進一步探討LLM輸出的可解釋性及減少醫學教育中不準確性的策略。 PubMed DOI