原始文章

這篇系統性回顧發現,大型語言模型(LLMs)在牙醫教育有潛力幫助學生學習,但常出現不可靠或虛構的資料來源,且來源透明度不足。雖然LLMs可作為輔助工具,但建議要小心使用,並需進一步研究及和可靠資料整合。 PubMed DOI


站上相關主題文章列表

人工智慧(AI)與教學、臨床技術的結合,正在顯著改變牙科教育。特別是像ChatGPT這樣的大型語言模型(LLMs),為提升教育體驗帶來新機會。LLMs能提供個性化反饋、生成案例情境及創建教育內容,提升牙科訓練質量。不過,也面臨內容偏見、不準確性及隱私問題等挑戰。為了最大化優勢並降低風險,需在適當指導下使用LLMs,讓牙科教育能創造更吸引人的學習體驗,幫助學生準備臨床實踐。 PubMed DOI

**引言** 隨著人工智慧的發展,大型語言模型(LLMs)在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本,潛在地提升臨床實踐和病人教育,但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識,透過分析它們對全國牙科考試(INBDE)問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs,針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高,達75.88%;Claude-2.1為66.38%;Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力,並強調選擇合適模型的重要性,但在臨床應用前仍需克服一些挑戰。 PubMed DOI

這項研究系統性回顧並進行元分析,評估大型語言模型(LLMs)在全球牙科執照考試中的表現。研究涵蓋2022年1月至2024年5月的相關文獻,共納入11項研究,來自8個國家。結果顯示,GPT-3.5、GPT-4和Bard的準確率分別為54%、72%和56%,其中GPT-4表現最佳,通過超過一半的考試。雖然LLMs在牙科教育和診斷中顯示潛力,但整體準確性仍低於臨床應用標準,主要因為訓練數據不足及影像診斷挑戰,因此目前不適合用於牙科教育和臨床診斷。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在解答牙周病學問題的可靠性,包括ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot。研究提出十個問題,並由兩位牙周病專家根據全面性、準確性、清晰度和相關性進行評分。結果顯示,ChatGPT 4.0表現最佳,而Google Gemini得分最低。雖然LLMs在臨床實踐中有潛力,但不應取代專業牙醫,因為不準確的資訊可能影響病人護理。總之,ChatGPT 4.0優於其他模型,但仍需注意其局限性。 PubMed DOI

這篇回顧強調大型語言模型(LLMs)在牙科領域的重要性,雖然在醫療應用上已有進展,但在牙科實務中仍然有限。研究分析了4079條紀錄,找出17項相關研究,發現ChatGPT是最常用的模型,主要用來回答術後病人的問題。大多數研究屬於第3級部署,顯示實際應用情況,但仍需進一步精練。結果顯示LLMs在牙科有潛力,但需更廣泛的評估和標準化,並採用進階提示技術以提升透明度和可重複性。持續努力對於優化LLMs在牙科的實用性至關重要。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

大型語言模型(LLMs)在教育上有潛力,但在高風險考試如牙科入學考試(DAT)的有效性仍不明朗。本研究評估了16個LLMs,包括通用和特定領域模型,針對DAT進行測試。結果顯示,GPT-4o和GPT-o1在文本問題上表現優異,特別是在自然科學和閱讀理解上。然而,所有模型在視覺空間推理方面面臨挑戰。雖然LLMs能增強知識,但在高階認知任務上仍需與教師指導結合,以提升學習效果。 PubMed DOI

這項研究評估了大型語言模型(LLM),特別是ChatGPT 4o,生成的國家牙科考試風格問題的質量,並與人類專家設計的問題進行比較。研究於2024年6月進行,30名高年級牙科學生參與,從教科書中生成44個問題,最終選出20個LLM組問題,另一組則由兩位專家設計。分析重點在難度、區分指數和干擾項效率。結果顯示,LLM組的問題在難度和區分指數上表現優於人類組,但差異不顯著。總體來看,LLM生成的問題質量與人類專家相當。 PubMed DOI

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現,ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好,尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率,但效果不一定。即使表現最好的模型,可靠度也只有中等,偶爾還是會出錯,顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

這篇系統性回顧分析GPT大型語言模型在牙醫領域的應用,從704篇文獻中篩選出16篇高品質研究。結果發現,這類技術有潛力,但效果不一,強調在廣泛臨床應用前,還需要更多嚴謹研究和完善倫理規範。 PubMed DOI