Evaluation of the ability of large language models to self-diagnose oral diseases.
大型語言模型自我診斷口腔疾病的能力評估。 iScience 2025-01-06

大型語言模型（LLMs）在基礎牙科護理中展現潛力，特別是在診斷口腔疾病方面。評估顯示，這些模型在診斷顳顎關節障礙、牙周病、齲齒和錯牙合等病症上都有不錯的表現。特別是ChatGPT 3.5在中文中對牙髓炎的診斷能力從0%提升至61.7%，但對冠周炎的診斷能力下降。相比之下，ChatGPT 4.0在牙髓炎和冠周炎的診斷上都有顯著提升。總體來看，雖然LLMs在牙科護理中有潛力，但仍需進一步改進。 PubMed DOI

Accuracy of ChatGPT 3.5, 4.0, 4o and Gemini in diagnosing oral potentially malignant lesions based on clinical case reports and image recognition.
基於臨床案例報告和影像識別，ChatGPT 3.5、4.0、4o 和 Gemini 在診斷口腔潛在惡性病變的準確性。 Med Oral Patol Oral Cir Bucal 2025-01-26

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變（OPMLs）的準確性，特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示，GPT 4o在文本診斷中表現最佳，正確回答27個案例，其次是GPT 4.0、3.5和Gemini。在影像識別方面，GPT 4o也優於Gemini。不過，這些模型的準確性仍未達到專家水平，顯示出中等到良好的協議程度。研究指出，雖然人工智慧在診斷OPMLs上有潛力，但整合進臨床實踐時需謹慎。 PubMed DOI

Transforming dental diagnostics with artificial intelligence: advanced integration of ChatGPT and large language models for patient care.
利用人工智慧轉變牙科診斷：ChatGPT 和大型語言模型在病患照護中的進階整合。 Front Dent Med 2025-02-07

這項研究探討了先進的人工智慧演算法及大型語言模型（LLMs），特別是OpenAI的ChatGPT，對牙科診斷的影響。透過公開數據集，這些模型提升了醫療專業人員的診斷能力，改善了患者與醫療提供者的溝通，並提高了臨床效率。ChatGPT-4的推出預期將對口腔外科產生重大影響。本文回顧了LLMs在牙科診斷的應用，並提出未來研究方向，評估人工智慧在醫療領域的潛力與挑戰。 PubMed DOI

Assessing the performance of an artificial intelligence based chatbot in the differential diagnosis of oral mucosal lesions: clinical validation study.
評估基於人工智慧的聊天機器人在口腔黏膜病變鑑別診斷中的表現：臨床驗證研究。 Clin Oral Investig 2025-03-18

這項研究探討了基於人工智慧的聊天機器人ChatGPT-4在口腔黏膜病變鑑別診斷中的有效性。研究收集了因口腔黏膜活檢而轉診的患者數據，並將病變描述輸入ChatGPT以生成診斷，與專家診斷進行比較。結果顯示，聊天機器人的診斷與專家之間有顯著相關性，且能高敏感性識別惡性病變。整體而言，ChatGPT-4在識別可疑惡性病變方面表現出色，顯示出其在口腔醫學中的輔助潛力。 PubMed DOI

Evaluating Large Language Models for Burning Mouth Syndrome Diagnosis.
評估大型語言模型在 Burning Mouth Syndrome 診斷中的應用。 J Pain Res 2025-03-24

這項研究探討大型語言模型（LLMs）在診斷燒灼口症候群（BMS）的準確性。研究使用了三個模型：ChatGPT-4o、Gemini Advanced 1.5 Pro和Claude 3.5 Sonnet，評估100個合成案例。結果顯示，ChatGPT和Claude的準確率達99%，而Gemini為89%。雖然準確率高，但模型在推理上有變異，偶爾會出錯，顯示臨床醫師監督的重要性。研究指出，LLMs可作為BMS的輔助診斷工具，但需專家驗證以確保有效性，對牙醫和專家皆有幫助。 PubMed DOI

Artificial intelligence performance in answering multiple-choice oral pathology questions: a comparative analysis.
人工智慧在回答口腔病理學選擇題的表現：比較性分析 BMC Oral Health 2025-04-15

這項研究比較八種大型語言模型在土耳其牙科專科考試口腔病理學題目的表現，發現 ChatGPT o1 正確率最高（96%），Copilot 最低。不論題型，ChatGPT o1 都明顯優於其他模型。雖然 LLMs 在牙科教學有潛力，但還需要更多驗證。 PubMed DOI

Can deepseek and ChatGPT be used in the diagnosis of oral pathologies?
你提供的標題是： **Can deepseek and ChatGPT be used in the diagnosis of oral pathologies?** 翻譯為繁體中文(zh-TW)如下： **deepseek 與 ChatGPT 可用於口腔病理診斷嗎？** BMC Oral Health 2025-04-25

這項研究比較ChatGPT-4o和Deepseek-v3在16個虛構口腔病理案例的診斷表現。結果顯示，Deepseek-v3的診斷準確度和文獻引用都比ChatGPT-4o好，平均分數也較高（4.02比3.15）。雖然兩者都能協助臨床醫師，但在文獻正確性上還有待加強。目前Deepseek-v3在口腔病理診斷方面表現較優。 PubMed DOI

A pilot study of the performance of Chat GPT and other large language models on a written final year periodontology exam.
Chat GPT 及其他大型語言模型於牙周病學畢業考筆試表現之初步研究 BMC Med Educ 2025-05-19

最新的語言模型（像 GPT-4o、ChatGPT-4）在牙周病學筆試的表現，已經超越大四牙醫學生，分數甚至接近頂尖學生。其他免費模型（如 Claude、DeepSeek、Gemini）也都比學生高分，其中以 Claude 最突出。不過，這些 AI 的答案有時會不正確或不完整，表現也會隨時間變動。雖然它們能幫助牙醫學習，但在醫療領域還是要謹慎使用。 PubMed DOI

Image-Based Diagnostic Performance of LLMs vs CNNs for Oral Lichen Planus: Example-Guided and Differential Diagnosis.
口腔扁平苔癬的影像診斷表現：大型語言模型（LLMs）與卷積神經網路（CNNs）的比較—以範例引導與鑑別診斷為例 Int Dent J 2025-06-07

這項研究發現，雖然像Gemini 1.5和GPT-4o這類具電腦視覺功能的大型語言模型表現不錯，但在診斷口腔扁平苔癬時，整體表現還是比傳統CNN差。目前CNN仍是臨床OLP影像診斷的首選，LLMs還不適合直接應用於臨床。 PubMed DOI

Diagnostic Performance of ChatGPT-4o and DeepSeek-3 Differential Diagnosis of Complex Oral Lesions: A Multimodal Imaging and Case Difficulty Analysis.
ChatGPT-4o 與 DeepSeek-3 在複雜口腔病變鑑別診斷的診斷表現：多模態影像與病例難度分析 Oral Dis 2025-07-01

研究發現，口腔醫學專家在診斷帶圖片的臨床案例時，表現比 ChatGPT-4o 和 DeepSeek-3 這兩款 AI 更好。雖然 DeepSeek-3 在純文字診斷上比 ChatGPT-4o 準確，尤其在複雜或發炎案例，但整體來說，專家還是最可靠。加入影像資訊能提升診斷準確度，但 AI 目前還無法完全取代專業醫師。 PubMed DOI

原始文章

站上相關主題文章列表