Performance of large language models in the National Dental Licensing Examination in China: a comparative analysis of ChatGPT, GPT-4, and New Bing.
中國國家牙科執照考試中大型語言模型的表現：ChatGPT、GPT-4 和 New Bing 的比較分析。 Int J Comput Dent 2024-12-09

這項研究評估了大型語言模型（LLMs）如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試（NDLE）的表現。研究使用2020至2022年的考題，結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異，明顯超越其他兩者。不過，GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足，顯示出改進的空間。整體來看，這些模型在NDLE中展現出強大能力，但仍需加強某些領域。 PubMed DOI

Evaluation of Information Provided by ChatGPT Versions on Traumatic Dental Injuries for Dental Students and Professionals.
ChatGPT 版本在創傷性牙齒損傷方面提供的資訊評估：針對牙科學生和專業人士。 Dent Traumatol 2025-01-24

這項研究評估了ChatGPT 3.5和4.0在提供創傷性牙齒損傷資訊上的表現，針對40個問題進行分析。主要發現包括：ChatGPT 3.5的原創回應較多，且可讀性稍好（FRES得分39.732），而4.0在定義和診斷的質量上表現較佳。雖然兩者在可讀性和可靠性上有挑戰，但仍提供高質量資訊，建議作為牙科教育的輔助資源。 PubMed DOI

Transforming dental diagnostics with artificial intelligence: advanced integration of ChatGPT and large language models for patient care.
利用人工智慧轉變牙科診斷：ChatGPT 和大型語言模型在病患照護中的進階整合。 Front Dent Med 2025-02-07

這項研究探討了先進的人工智慧演算法及大型語言模型（LLMs），特別是OpenAI的ChatGPT，對牙科診斷的影響。透過公開數據集，這些模型提升了醫療專業人員的診斷能力，改善了患者與醫療提供者的溝通，並提高了臨床效率。ChatGPT-4的推出預期將對口腔外科產生重大影響。本文回顧了LLMs在牙科診斷的應用，並提出未來研究方向，評估人工智慧在醫療領域的潛力與挑戰。 PubMed DOI

Evaluating the evidence-based potential of six large language models in paediatric dentistry: a comparative study on generative artificial intelligence.
評估六種大型語言模型在兒童牙科中的循證潛力：一項關於生成式人工智慧的比較研究。 Eur Arch Paediatr Dent 2025-02-22

這項研究評估了六個大型語言模型（LLMs）在兒童牙科的有效性，包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題，並由兩位評估者根據0到10的標準進行評分。結果顯示，ChatGPT-4得分最高（8.08），其次是Gemini Advanced（8.06）和ChatGPT-4o（8.01）。雖然LLMs在支持兒童牙科方面有潛力，但專業人員應批判性地使用這些工具，並不應完全依賴。 PubMed DOI

Effectiveness of various general large language models in clinical consensus and case analysis in dental implantology: a comparative study.
各種大型通用語言模型在牙科植牙臨床共識和案例分析中的有效性：一項比較研究。 BMC Med Inform Decis Mak 2025-03-27

這項研究評估了四個大型語言模型（LLMs）在牙植體問題上的表現，包括 ChatGPT-4.0、Gemini Pro 1.5(0801)、Claude 3 Opus 和 Qwen 2.0 72B。目的是幫助資源不足地區的醫生選擇最有效的模型，以提升牙科護理的可及性。結果顯示，ChatGPT-4.0 在簡單和複雜問題上表現最佳，Gemini Pro 1.5(0801) 在簡單問題上表現良好，但複雜問題不穩定。Qwen 2.0 72B 在特定案例上表現不錯，但變異性大，而 Claude 3 Opus 表現最差。建議使用多個模型組合以增強醫療決策能力。 PubMed DOI

Accuracy, Consistency, and Contextual Understanding of Large Language Models in Restorative Dentistry and Endodontics.
大型語言模型在修復牙科與牙髓病學中的準確性、一致性與情境理解 J Dent 2025-04-17

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現，ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好，尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率，但效果不一定。即使表現最好的模型，可靠度也只有中等，偶爾還是會出錯，顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

The impact of the large language model ChatGPT in oral and maxillofacial surgery: a systematic review.
大型語言模型 ChatGPT 在口腔顎面外科的影響：系統性回顧 Br J Oral Maxillofac Surg 2025-04-18

這篇系統性回顧發現，ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果，尤其在產生手術同意書和術後支持表現不錯，但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具，需專業人員監督，不能完全取代醫師判斷。 PubMed DOI

Evaluation of the performance of large language models in clinical decision-making in endodontics.
大型語言模型在牙髓病學臨床決策中的表現評估 BMC Oral Health 2025-04-28

這項研究發現，ChatGPT-4 在回答牙髓病學問題時，準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好，錯誤率也最低。不過，所有 AI 聊天機器人偶爾還是會出錯，所以臨床上用這些工具時要特別注意。 PubMed DOI

A pilot study of the performance of Chat GPT and other large language models on a written final year periodontology exam.
Chat GPT 及其他大型語言模型於牙周病學畢業考筆試表現之初步研究 BMC Med Educ 2025-05-19

最新的語言模型（像 GPT-4o、ChatGPT-4）在牙周病學筆試的表現，已經超越大四牙醫學生，分數甚至接近頂尖學生。其他免費模型（如 Claude、DeepSeek、Gemini）也都比學生高分，其中以 Claude 最突出。不過，這些 AI 的答案有時會不正確或不完整，表現也會隨時間變動。雖然它們能幫助牙醫學習，但在醫療領域還是要謹慎使用。 PubMed DOI

Performance of GPT-4 in oral and maxillofacial surgery board exams: challenges in specialized questions.
GPT-4 在口腔顎面外科專科醫師考試中的表現：專業題目面臨的挑戰 Oral Maxillofac Surg 2025-05-30

這項研究發現，GPT-4在口腔顎面外科專科考題的整體正確率為62%，對藥理學和解剖學表現較好，但在牙科植體和正顎手術等專業題目較弱。顯示GPT-4對一般醫學教育有幫助，但在專業領域還有待加強，未來應持續改進才能應用於進階醫療。 PubMed DOI

原始文章

站上相關主題文章列表