Accuracy of ChatGPT 3.5, 4.0, 4o and Gemini in diagnosing oral potentially malignant lesions based on clinical case reports and image recognition.
基於臨床案例報告和影像識別，ChatGPT 3.5、4.0、4o 和 Gemini 在診斷口腔潛在惡性病變的準確性。 Med Oral Patol Oral Cir Bucal 2025-01-26

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變（OPMLs）的準確性，特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示，GPT 4o在文本診斷中表現最佳，正確回答27個案例，其次是GPT 4.0、3.5和Gemini。在影像識別方面，GPT 4o也優於Gemini。不過，這些模型的準確性仍未達到專家水平，顯示出中等到良好的協議程度。研究指出，雖然人工智慧在診斷OPMLs上有潛力，但整合進臨床實踐時需謹慎。 PubMed DOI

Artificial intelligence for image recognition in diagnosing oral and oropharyngeal cancer and leukoplakia.
人工智慧在口腔及咽喉癌和白斑診斷中的影像識別應用。 Sci Rep 2025-01-29

這項研究評估了具影像識別功能的 ChatGPT 4.0 在診斷鱗狀細胞癌 (SCC) 和白斑病的能力，分析了 45 張影像。結果顯示，ChatGPT 4.0 能準確識別白斑病，但對 SCC 的診斷能力有限，需結合臨床病史才能提高準確性。僅依臨床病史時，白斑病和部分 SCC 的誤分類情況明顯。整體而言，雖然在白斑病檢測上有潛力，但對於口腔及咽喉部的 SCC 診斷仍不可靠，未來技術進步可能改善其臨床應用。 PubMed DOI

Assessing the performance of an artificial intelligence based chatbot in the differential diagnosis of oral mucosal lesions: clinical validation study.
評估基於人工智慧的聊天機器人在口腔黏膜病變鑑別診斷中的表現：臨床驗證研究。 Clin Oral Investig 2025-03-18

這項研究探討了基於人工智慧的聊天機器人ChatGPT-4在口腔黏膜病變鑑別診斷中的有效性。研究收集了因口腔黏膜活檢而轉診的患者數據，並將病變描述輸入ChatGPT以生成診斷，與專家診斷進行比較。結果顯示，聊天機器人的診斷與專家之間有顯著相關性，且能高敏感性識別惡性病變。整體而言，ChatGPT-4在識別可疑惡性病變方面表現出色，顯示出其在口腔醫學中的輔助潛力。 PubMed DOI

Accuracy of ChatGPT-4o in Text and Video Analysis of Laryngeal Malignant and Premalignant Diseases.
ChatGPT-4o 在喉部惡性及前惡性疾病的文本和視頻分析中的準確性。 J Voice 2025-03-27

這項研究評估了ChatGPT-4o在分析懷疑喉部惡性腫瘤的臨床纖維內視鏡視頻的表現，並與專家醫師進行比較。研究在一所醫療中心對20名患者進行，結果顯示該人工智慧在30%的案例中正確診斷惡性腫瘤，並在90%的案例中將其列為前三名診斷。雖然敏感性高，但特異性有限，影像分析一致性得分為2.36（滿分5分）。總體而言，ChatGPT-4o顯示潛力，但在特異性和影像解讀上仍需改進，以提升耳鼻喉科的診斷準確性。 PubMed DOI

Decoding wisdom: Evaluating ChatGPT's accuracy and reproducibility in analyzing orthopantomographic images for third molar assessment.
解碼智慧：評估 ChatGPT 在分析全口顱顎斷層影像以評估第三大臼齒時的準確性與再現性 Comput Struct Biotechnol J 2025-04-24

這項研究發現，ChatGPT-4o在判讀下顎智齒拔除用的全口X光片時，正確率只有38.44%，表現不夠理想。雖然回答有一定一致性，但重複性普通，對複雜影像常出錯。現階段還不適合單獨用於牙科臨床，仍需專家把關，未來還要加強AI訓練和開發。 PubMed DOI

Can deepseek and ChatGPT be used in the diagnosis of oral pathologies?
你提供的標題是： **Can deepseek and ChatGPT be used in the diagnosis of oral pathologies?** 翻譯為繁體中文(zh-TW)如下： **deepseek 與 ChatGPT 可用於口腔病理診斷嗎？** BMC Oral Health 2025-04-25

這項研究比較ChatGPT-4o和Deepseek-v3在16個虛構口腔病理案例的診斷表現。結果顯示，Deepseek-v3的診斷準確度和文獻引用都比ChatGPT-4o好，平均分數也較高（4.02比3.15）。雖然兩者都能協助臨床醫師，但在文獻正確性上還有待加強。目前Deepseek-v3在口腔病理診斷方面表現較優。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

Image-Based Diagnostic Performance of LLMs vs CNNs for Oral Lichen Planus: Example-Guided and Differential Diagnosis.
口腔扁平苔癬的影像診斷表現：大型語言模型（LLMs）與卷積神經網路（CNNs）的比較—以範例引導與鑑別診斷為例 Int Dent J 2025-06-07

這項研究發現，雖然像Gemini 1.5和GPT-4o這類具電腦視覺功能的大型語言模型表現不錯，但在診斷口腔扁平苔癬時，整體表現還是比傳統CNN差。目前CNN仍是臨床OLP影像診斷的首選，LLMs還不適合直接應用於臨床。 PubMed DOI

The Diagnostic Performance of Large Language Models and Oral Medicine Consultants for Identifying Oral Lesions in Text-Based Clinical Scenarios: Prospective Comparative Study.
大型語言模型與口腔醫學專科醫師在文字型臨床情境中辨識口腔病變的診斷表現：前瞻性比較研究 JMIR AI 2025-07-03

研究發現，ChatGPT在診斷50個口腔病灶案例時，準確度和專業醫師差不多，表現比Microsoft Copilot好。兩種AI都有潛力協助牙醫臨床診斷，尤其是ChatGPT表現最突出。 PubMed DOI

Advancing dental diagnostics with OpenAI's o1-preview: A follow-up evaluation of ChatGPT's performance on diagnostic challenges.
利用 OpenAI 的 o1-preview 推進牙科診斷：ChatGPT 在診斷挑戰上的表現後續評估 J Am Dent Assoc 2025-07-09

OpenAI 最新的 o1-preview 模型在處理複雜病患案例時，無論是鑑別診斷還是最終診斷，都比舊版 ChatGPT（3.5 和 4 legacy）更準確，特別是在獨立作業時表現更好。雖然還有進步空間，但這次提升很明顯，AI 融入醫療診斷已經是遲早的事，只是還需要更多驗證。 PubMed DOI

原始文章

站上相關主題文章列表