Development and Evaluation of a Retrieval-Augmented Large Language Model Framework for Ophthalmology.
眼科學的檢索增強型大型語言模型框架的開發和評估。 JAMA Ophthalmol 2024-07-18

在醫學領域中，開發本地化的大型語言模型（LLMs），結合知識庫，提升性能並解決隱私問題，增進醫療專業人員的可使用性。ChatZOC框架結合眼科數據集，與其他LLMs進行基準測試，顯示增強型LLM在回答臨床問題時更準確、實用，展現在提供可靠臨床資訊方面的潛力。未來需進一步研究，探索在實際醫療環境中的廣泛應用。 PubMed DOI

Comprehensiveness of Large Language Models in Patient Queries on Gingival and Endodontic Health.
大型語言模型在牙齦和根管健康患者詢問中的全面性。 Int Dent J 2024-08-15

這項研究評估了兩個大型語言模型（LLMs），ChatGPT-3.5 和 ChatGPT-4，對牙齦和根管健康問題的回答效果。共提出33個問題，包含17個常識性和16個專家級問題，並以中英文呈現。三位專家對回答進行五分制評分。結果顯示，兩者在英文表現較佳，ChatGPT-4的平均得分為4.45，優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性，並指出需進一步評估LLMs以解決其在不同語言環境中的局限性，避免口腔健康資訊誤解。 PubMed DOI

Artificial Intelligence in Dental Education: Opportunities and Challenges of Large Language Models and Multimodal Foundation Models.
牙科教育中的人工智慧：大型語言模型和多模態基礎模型的機遇與挑戰。 JMIR Med Educ 2024-09-27

人工智慧（AI）與教學、臨床技術的結合，正在顯著改變牙科教育。特別是像ChatGPT這樣的大型語言模型（LLMs），為提升教育體驗帶來新機會。LLMs能提供個性化反饋、生成案例情境及創建教育內容，提升牙科訓練質量。不過，也面臨內容偏見、不準確性及隱私問題等挑戰。為了最大化優勢並降低風險，需在適當指導下使用LLMs，讓牙科教育能創造更吸引人的學習體驗，幫助學生準備臨床實踐。 PubMed DOI

Performance of large language artificial intelligence models on solving restorative dentistry and endodontics student assessments.
大型語言人工智慧模型在解決修復牙科和根管治療學生評估中的表現。 Clin Oral Investig 2024-10-07

這項研究分析了不同大型語言模型（LLMs）在牙科和根管治療學生評估中的表現。共測試151道選擇題，結果顯示ChatGPT-4.0o的準確率最高，達72%，其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯，特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題，但效果因模型而異，顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

Comparing the dental knowledge of large language models.
比較大型語言模型的牙科知識。 Br Dent J 2024-11-01

**引言** 隨著人工智慧的發展，大型語言模型（LLMs）在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本，潛在地提升臨床實踐和病人教育，但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識，透過分析它們對全國牙科考試（INBDE）問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs，針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高，達75.88%；Claude-2.1為66.38%；Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力，並強調選擇合適模型的重要性，但在臨床應用前仍需克服一些挑戰。 PubMed DOI

Mapping the Landscape of Generative Language Models in Dental Education: A Comparison Between ChatGPT and Google Bard.
在牙科教育中生成語言模型的全景圖：ChatGPT 與 Google Bard 的比較。 Eur J Dent Educ 2024-11-20

這項研究比較了ChatGPT 3.5和Google Bard在牙科教育中的表現。研究設計了七個問題來評估這些模型的能力，包括創建練習和模擬牙科問題。結果顯示，ChatGPT 3.5在創建相關練習和評估工具方面表現較佳，而Bard在檢索和批評研究文章上更為出色。研究強調了生成語言模型在增強牙科教育的潛力，但也指出了模型表現的差異，建議對基於證據的內容生成進行針對性訓練，並提醒教育者在依賴AI進行重要決策時要謹慎。 PubMed DOI

Evaluation of a context-aware chatbot using retrieval-augmented generation for answering clinical questions on medication-related osteonecrosis of the jaw.
使用檢索增強生成技術評估上下文感知聊天機器人，以回答有關藥物相關性下顎骨壞死的臨床問題。 J Craniomaxillofac Surg 2025-01-11

這項研究強調大型語言模型（LLMs）在醫療領域的潛力，特別是透過檢索增強生成（RAG）來提升數據透明度和準確性。研究團隊開發了GuideGPT，一個能理解上下文的聊天機器人，整合了449篇科學文獻的知識，提供有關藥物相關性顳骨壞死（MRONJ）的資訊。與通用的PureGPT相比，GuideGPT在內容、科學解釋和一致性上表現更佳，顯示RAG能有效提升LLM的回應質量，成為臨床實踐中的重要工具。 PubMed DOI

Retrieval-augmented generation enhances large language model performance on the Japanese orthopedic board examination.
檢索增強生成提升大型語言模型在日本骨科考試中的表現。 J Orthop Sci 2025-03-29

這項研究探討檢索增強生成（RAG）對大型語言模型（LLMs）在醫學領域的影響，特別針對2024年日本骨科專家考試。研究團隊建立了專門資料庫，評估了GPT-3.5 Turbo、GPT-4o和o1-preview的表現。結果顯示，GPT-3.5 Turbo使用RAG後準確率未見提升，仍為28%；而GPT-4o和o1-preview的準確率分別從62%和67%提升至72%和84%。分析指出，GPT-3.5 Turbo在利用檢索數據上表現不佳，顯示其推理能力不足。總體而言，RAG顯著提升了GPT-4o和o1-preview的表現，特別是o1-preview達到臨床實踐的水準。 PubMed DOI

Accuracy, Consistency, and Contextual Understanding of Large Language Models in Restorative Dentistry and Endodontics.
大型語言模型在修復牙科與牙髓病學中的準確性、一致性與情境理解 J Dent 2025-04-17

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現，ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好，尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率，但效果不一定。即使表現最好的模型，可靠度也只有中等，偶爾還是會出錯，顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

Evaluation of the performance of large language models in clinical decision-making in endodontics.
大型語言模型在牙髓病學臨床決策中的表現評估 BMC Oral Health 2025-04-28

這項研究發現，ChatGPT-4 在回答牙髓病學問題時，準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好，錯誤率也最低。不過，所有 AI 聊天機器人偶爾還是會出錯，所以臨床上用這些工具時要特別注意。 PubMed DOI

原始文章

站上相關主題文章列表