Performance of large language models in the National Dental Licensing Examination in China: a comparative analysis of ChatGPT, GPT-4, and New Bing.
中國國家牙科執照考試中大型語言模型的表現：ChatGPT、GPT-4 和 New Bing 的比較分析。 Int J Comput Dent 2024-12-09

這項研究評估了大型語言模型（LLMs）如ChatGPT、GPT-4和New Bing在中國國家牙科執照考試（NDLE）的表現。研究使用2020至2022年的考題，結果顯示ChatGPT得42.6%、GPT-4得63.0%、New Bing得72.5%。特別是New Bing在各科目上表現優異，明顯超越其他兩者。不過，GPT-4和New Bing在修復牙科及口腔外科等特定科目上仍有不足，顯示出改進的空間。整體來看，這些模型在NDLE中展現出強大能力，但仍需加強某些領域。 PubMed DOI

Evaluation of the ability of large language models to self-diagnose oral diseases.
大型語言模型自我診斷口腔疾病的能力評估。 iScience 2025-01-06

大型語言模型（LLMs）在基礎牙科護理中展現潛力，特別是在診斷口腔疾病方面。評估顯示，這些模型在診斷顳顎關節障礙、牙周病、齲齒和錯牙合等病症上都有不錯的表現。特別是ChatGPT 3.5在中文中對牙髓炎的診斷能力從0%提升至61.7%，但對冠周炎的診斷能力下降。相比之下，ChatGPT 4.0在牙髓炎和冠周炎的診斷上都有顯著提升。總體來看，雖然LLMs在牙科護理中有潛力，但仍需進一步改進。 PubMed DOI

Accuracy of latest large language models in answering multiple choice questions in dentistry: A comparative study.
最新大型語言模型在牙科多選題回答中的準確性：一項比較研究。 PLoS One 2025-01-29

這項研究評估了六種大型語言模型（LLMs）在回答牙科多選題的表現，分析了1490道來自美國國家牙科考試的題目。測試的模型包括ChatGPT 4.0 omni、Gemini Advanced 1.5 Pro等。結果顯示，Copilot（85.5%）、Claude（84.0%）和ChatGPT（83.8%）的準確性最佳。雖然這些模型在文字型問題上表現良好，但在影像型問題上則較弱。研究建議牙科專業人士和學生應使用更新的模型，以提升教育和臨床需求的滿足。 PubMed DOI

Evaluating the evidence-based potential of six large language models in paediatric dentistry: a comparative study on generative artificial intelligence.
評估六種大型語言模型在兒童牙科中的循證潛力：一項關於生成式人工智慧的比較研究。 Eur Arch Paediatr Dent 2025-02-22

這項研究評估了六個大型語言模型（LLMs）在兒童牙科的有效性，包括Google的Gemini、OpenAI的ChatGPT系列和微軟的Copilot。研究者提出十個臨床問題，並由兩位評估者根據0到10的標準進行評分。結果顯示，ChatGPT-4得分最高（8.08），其次是Gemini Advanced（8.06）和ChatGPT-4o（8.01）。雖然LLMs在支持兒童牙科方面有潛力，但專業人員應批判性地使用這些工具，並不應完全依賴。 PubMed DOI

Can a large language model create acceptable dental board-style examination questions? A cross-sectional prospective study.
大型語言模型能否創建可接受的牙科考試風格問題？一項橫斷面前瞻性研究。 J Dent Sci 2025-04-14

這項研究評估了大型語言模型（LLM），特別是ChatGPT 4o，生成的國家牙科考試風格問題的質量，並與人類專家設計的問題進行比較。研究於2024年6月進行，30名高年級牙科學生參與，從教科書中生成44個問題，最終選出20個LLM組問題，另一組則由兩位專家設計。分析重點在難度、區分指數和干擾項效率。結果顯示，LLM組的問題在難度和區分指數上表現優於人類組，但差異不顯著。總體來看，LLM生成的問題質量與人類專家相當。 PubMed DOI

Artificial intelligence performance in answering multiple-choice oral pathology questions: a comparative analysis.
人工智慧在回答口腔病理學選擇題的表現：比較性分析 BMC Oral Health 2025-04-15

這項研究比較八種大型語言模型在土耳其牙科專科考試口腔病理學題目的表現，發現 ChatGPT o1 正確率最高（96%），Copilot 最低。不論題型，ChatGPT o1 都明顯優於其他模型。雖然 LLMs 在牙科教學有潛力，但還需要更多驗證。 PubMed DOI

Accuracy, Consistency, and Contextual Understanding of Large Language Models in Restorative Dentistry and Endodontics.
大型語言模型在修復牙科與牙髓病學中的準確性、一致性與情境理解 J Dent 2025-04-17

這項研究比較了四款大型語言模型在法國牙醫課程選擇題和名詞定義上的表現。結果發現，ChatGPT-4 和 Claude-3 的正確率和一致性都比 Mistral 7B 好，尤其是 ChatGPT-4 最穩定。雖然提供教材有時能提升正確率，但效果不一定。即使表現最好的模型，可靠度也只有中等，偶爾還是會出錯，顯示在牙醫教育和臨床上還是要小心使用。 PubMed DOI

Comparing ChatGPT and Dental Students' Performance in an Introduction to Dental Anatomy Examination: A Cross-Sectional Study.
ChatGPT 與牙醫學生在牙齒解剖學導論考試表現之比較：一項橫斷式研究 Eur J Dent 2025-05-13

這項研究發現，牙醫系學生在牙齒解剖學選擇題考試的表現優於ChatGPT，學生平均分數74.28%，ChatGPT則為60%。雖然ChatGPT有基本理解力，能及格，但準確度和可靠性還是不夠，所以不建議單靠它來學牙齒解剖學。 PubMed DOI

Comparative Analysis of ChatGPT-3.5 and GPT-4 in Open-Ended Clinical Reasoning Across Dental Specialties.
ChatGPT-3.5 與 GPT-4 在牙科各專科開放式臨床推理中的比較分析 Eur J Dent Educ 2025-06-14

這項研究發現，GPT-4 在擬定七大牙科專科的治療計畫上，表現比 GPT-3.5 更好，尤其在複雜病例和口腔顎面外科領域更準確一致。顯示 GPT-4 有潛力協助牙科教育和臨床決策，但還是需要專家把關。 PubMed DOI

The Diagnostic Performance of Large Language Models and Oral Medicine Consultants for Identifying Oral Lesions in Text-Based Clinical Scenarios: Prospective Comparative Study.
大型語言模型與口腔醫學專科醫師在文字型臨床情境中辨識口腔病變的診斷表現：前瞻性比較研究 JMIR AI 2025-07-03

研究發現，ChatGPT在診斷50個口腔病灶案例時，準確度和專業醫師差不多，表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷，尤其是ChatGPT表現最突出。 PubMed DOI

原始文章

站上相關主題文章列表