原始文章

將專業知識整合進大型語言模型對醫學教育很有挑戰,尤其牙髓病學又需要文字和影像資源。一般LLM常缺乏臨床精確度和情境。研究團隊開發Endodontics-KB平台,結合實證文獻和操作影片,並用分層RAG架構。其聊天機器人EndoQ能用多模態資料進行臨床推理,專家評比在五大指標都勝過一般LLM,提升牙科教育,也可應用到其他醫學領域。 PubMed DOI


站上相關主題文章列表

在醫學領域中,開發本地化的大型語言模型(LLMs),結合知識庫,提升性能並解決隱私問題,增進醫療專業人員的可使用性。ChatZOC框架結合眼科數據集,與其他LLMs進行基準測試,顯示增強型LLM在回答臨床問題時更準確、實用,展現在提供可靠臨床資訊方面的潛力。未來需進一步研究,探索在實際醫療環境中的廣泛應用。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT-3.5 和 ChatGPT-4,對牙齦和根管健康問題的回答效果。共提出33個問題,包含17個常識性和16個專家級問題,並以中英文呈現。三位專家對回答進行五分制評分。結果顯示,兩者在英文表現較佳,ChatGPT-4的平均得分為4.45,優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性,並指出需進一步評估LLMs以解決其在不同語言環境中的局限性,避免口腔健康資訊誤解。 PubMed DOI

人工智慧(AI)與教學、臨床技術的結合,正在顯著改變牙科教育。特別是像ChatGPT這樣的大型語言模型(LLMs),為提升教育體驗帶來新機會。LLMs能提供個性化反饋、生成案例情境及創建教育內容,提升牙科訓練質量。不過,也面臨內容偏見、不準確性及隱私問題等挑戰。為了最大化優勢並降低風險,需在適當指導下使用LLMs,讓牙科教育能創造更吸引人的學習體驗,幫助學生準備臨床實踐。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在牙科和根管治療學生評估中的表現。共測試151道選擇題,結果顯示ChatGPT-4.0o的準確率最高,達72%,其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯,特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題,但效果因模型而異,顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

**引言** 隨著人工智慧的發展,大型語言模型(LLMs)在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本,潛在地提升臨床實踐和病人教育,但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識,透過分析它們對全國牙科考試(INBDE)問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs,針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高,達75.88%;Claude-2.1為66.38%;Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力,並強調選擇合適模型的重要性,但在臨床應用前仍需克服一些挑戰。 PubMed DOI

這項研究比較了ChatGPT 3.5和Google Bard在牙科教育中的表現。研究設計了七個問題來評估這些模型的能力,包括創建練習和模擬牙科問題。結果顯示,ChatGPT 3.5在創建相關練習和評估工具方面表現較佳,而Bard在檢索和批評研究文章上更為出色。研究強調了生成語言模型在增強牙科教育的潛力,但也指出了模型表現的差異,建議對基於證據的內容生成進行針對性訓練,並提醒教育者在依賴AI進行重要決策時要謹慎。 PubMed DOI

這項研究強調大型語言模型(LLMs)在醫療領域的潛力,特別是透過檢索增強生成(RAG)來提升數據透明度和準確性。研究團隊開發了GuideGPT,一個能理解上下文的聊天機器人,整合了449篇科學文獻的知識,提供有關藥物相關性顳骨壞死(MRONJ)的資訊。與通用的PureGPT相比,GuideGPT在內容、科學解釋和一致性上表現更佳,顯示RAG能有效提升LLM的回應質量,成為臨床實踐中的重要工具。 PubMed DOI

這項研究探討檢索增強生成(RAG)對大型語言模型(LLMs)在醫學領域的影響,特別針對2024年日本骨科專家考試。研究團隊建立了專門資料庫,評估了GPT-3.5 Turbo、GPT-4o和o1-preview的表現。結果顯示,GPT-3.5 Turbo使用RAG後準確率未見提升,仍為28%;而GPT-4o和o1-preview的準確率分別從62%和67%提升至72%和84%。分析指出,GPT-3.5 Turbo在利用檢索數據上表現不佳,顯示其推理能力不足。總體而言,RAG顯著提升了GPT-4o和o1-preview的表現,特別是o1-preview達到臨床實踐的水準。 PubMed DOI

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現,ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好,尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率,但效果不一定。即使表現最好的模型,可靠度也只有中等,偶爾還是會出錯,顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

這項研究發現,ChatGPT-4 在回答牙髓病學問題時,準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好,錯誤率也最低。不過,所有 AI 聊天機器人偶爾還是會出錯,所以臨床上用這些工具時要特別注意。 PubMed DOI