Evaluation of the Performance of Generative AI Large Language Models ChatGPT, Google Bard, and Microsoft Bing Chat in Supporting Evidence-Based Dentistry: Comparative Mixed Methods Study.
評估生成式 AI 大型語言模型 ChatGPT、Google Bard 和 Microsoft Bing Chat 在支持循證牙科的表現：比較性混合方法研究。 J Med Internet Res 2024-01-14

研究比較四個大型語言模型對牙科問題的回答，發現ChatGPT-4表現最好，但所有模型都有不準確和缺乏參考來源的問題。強調語言模型在牙科領域的潛力，但也提到目前的限制需要謹慎處理。建議牙醫要保持批判思考，並進一步研究如何安全地應用語言模型在牙科實務上，同時呼籲監管措施以監督技術使用。 PubMed DOI

Evidence-based potential of generative artificial intelligence large language models in orthodontics: a comparative study of ChatGPT, Google Bard, and Microsoft Bing.
基於證據的生成式人工智慧大型語言模型在牙齒矯正學中的潛在應用：ChatGPT、Google Bard和Microsoft Bing的比較研究。 Eur J Orthod 2024-04-13

研究指出，微軟的 Bing Chat 在牙齒矯正領域表現最優秀，ChatGPT-4、Google Bard 和 ChatGPT-3.5次之。儘管語言模型對於牙齒矯正有潛力，但應謹慎考量其限制，不能全然依賴。在臨床應用前，仍需進行更多研究、驗證和改進。醫師在使用時應小心應對模型的限制，以免對患者造成負面影響。 PubMed DOI

Leveraging Large Language Models for Improved Patient Access and Self-Management: Assessor-Blinded Comparison Between Expert- and AI-Generated Content.
利用大型語言模型改善患者接觸和自我管理：專家和人工智慧生成內容的評估者盲檢比較。 J Med Internet Res 2024-04-25

研究比較Google Bard、ChatGPT-3.5和ChatGPT-4對口腔健康問題的建議效果，結果發現Google Bard易讀性高，但適當性稍差；ChatGPT-3.5和ChatGPT-4在適當性表現較好，尤其ChatGPT-4更穩定。這些模型被認為無害，對幫助性和意圖捕捉也相當。顯示大型語言模型在口腔健康護理有潛力，但仍需改進和考慮道德問題，未來研究應著重於安全整合策略。 PubMed DOI

Performance of three artificial intelligence (AI)-based large language models in standardized testing; implications for AI-assisted dental education.
三種基於人工智慧（AI）的大型語言模型在標準化測試中的表現；對於AI輔助牙科教育的啟示。 J Periodontal Res 2024-07-20

這項研究分析了三個大型語言模型（LLMs）—ChatGPT（4和3.5版）及Google Gemini—在回答美國牙周病學會的考試問題時的準確性，並與人類研究生的表現進行比較。結果顯示，ChatGPT-4的準確率達79.57%，表現最佳；Google Gemini的準確率介於70.65%到75.73%之間，優於ChatGPT-3.5，但仍低於三年級住院醫師。ChatGPT-3.5的表現最差，準確率在59.27%到69.83%之間。研究指出LLMs在牙周病學教育上的潛力，但也需進一步研究以克服其限制。 PubMed DOI

Comprehensiveness of Large Language Models in Patient Queries on Gingival and Endodontic Health.
大型語言模型在牙齦和根管健康患者詢問中的全面性。 Int Dent J 2024-08-15

這項研究評估了兩個大型語言模型（LLMs），ChatGPT-3.5 和 ChatGPT-4，對牙齦和根管健康問題的回答效果。共提出33個問題，包含17個常識性和16個專家級問題，並以中英文呈現。三位專家對回答進行五分制評分。結果顯示，兩者在英文表現較佳，ChatGPT-4的平均得分為4.45，優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性，並指出需進一步評估LLMs以解決其在不同語言環境中的局限性，避免口腔健康資訊誤解。 PubMed DOI

Large-Language Models in Orthodontics: Assessing Reliability and Validity of ChatGPT in Pretreatment Patient Education.
正畸學中的大型語言模型：評估 ChatGPT 在治療前病人教育中的可靠性和有效性。 Cureus 2024-09-30

這項研究探討大型語言模型（LLMs），如Chat-GPT，如何提供牙齒矯正治療副作用的資訊。研究評估了GPT-3.5和GPT-4生成的資訊，專家認為整體可接受，但GPT-4表現較佳。對46名牙齒矯正患者的調查顯示，他們認為AI生成的資訊更有用且全面，能減少焦慮，約80%的患者偏好這類內容。不過，研究指出提示的質量和全面性仍需改進，以提升患者教育效果。 PubMed DOI

Performance of large language artificial intelligence models on solving restorative dentistry and endodontics student assessments.
大型語言人工智慧模型在解決修復牙科和根管治療學生評估中的表現。 Clin Oral Investig 2024-10-07

這項研究分析了不同大型語言模型（LLMs）在牙科和根管治療學生評估中的表現。共測試151道選擇題，結果顯示ChatGPT-4.0o的準確率最高，達72%，其次是ChatGPT-4.0的62%、Gemini 1.0的44%和ChatGPT-3.5的25%。不同模型之間的表現差異明顯，特別是ChatGPT-4系列表現最佳。雖然這些模型能協助回答牙科問題，但效果因模型而異，顯示出ChatGPT-4系列在牙科教育上的潛力。 PubMed DOI

Accuracy of Large Language Models for Infective Endocarditis Prophylaxis in Dental Procedures.
大型語言模型在牙科手術中對感染性心內膜炎預防的準確性。 Int Dent J 2024-10-12

感染性心內膜炎（IE）對高風險患者在牙科手術前需進行抗生素預防。研究測試了七個大型語言模型（LLMs）在提供IE抗生素預防資訊的準確性，使用基於2021年美國心臟協會指導方針的28個是非題。結果顯示，模型間準確性差異顯著，使用預先提示時表現普遍較佳，GPT-4o達到80%的最高準確率。雖然沒有模型達到理想的準確性標準，但仍顯示出潛力，顯示需進一步訓練以提升醫療查詢的有效性。 PubMed DOI

Evaluating Large Language Models in Dental Anesthesiology: A Comparative Analysis of ChatGPT-4, Claude 3 Opus, and Gemini 1.0 on the Japanese Dental Society of Anesthesiology Board Certification Exam.
評估大型語言模型在牙科麻醉學中的應用：ChatGPT-4、Claude 3 Opus 和 Gemini 1.0 在日本牙科麻醉學會董事認證考試中的比較分析。 Cureus 2024-10-29

本研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示，ChatGPT-4的正確率為51.2%，Claude 3 Opus為47.4%，而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳，但目前的正確率仍不足以支持臨床應用。研究指出，需改善高品質資訊的可獲得性及提示設計，以提升LLMs在牙科麻醉的實用性。 PubMed DOI

Comparing the dental knowledge of large language models.
比較大型語言模型的牙科知識。 Br Dent J 2024-11-01

**引言** 隨著人工智慧的發展，大型語言模型（LLMs）在牙科領域的應用逐漸受到重視。這些模型能生成類似人類的文本，潛在地提升臨床實踐和病人教育，但其準確性對病人護理至關重要。 **目的** 本研究首次評估不同LLMs的牙科知識，透過分析它們對全國牙科考試（INBDE）問題的回答準確性。 **方法** 我們測試了多個閉源和開源的LLMs，針對「病人箱」風格的問題及傳統多選題進行評估。 **結果** ChatGPT-4的準確率最高，達75.88%；Claude-2.1為66.38%；Mistral-Medium則為54.77%。模型間的表現差異顯著。 **結論** 研究顯示LLMs在牙科的潛力，並強調選擇合適模型的重要性，但在臨床應用前仍需克服一些挑戰。 PubMed DOI

原始文章

站上相關主題文章列表