Evaluation of the Performance of Generative AI Large Language Models ChatGPT, Google Bard, and Microsoft Bing Chat in Supporting Evidence-Based Dentistry: Comparative Mixed Methods Study.
評估生成式 AI 大型語言模型 ChatGPT、Google Bard 和 Microsoft Bing Chat 在支持循證牙科的表現：比較性混合方法研究。 J Med Internet Res 2024-01-14

研究比較四個大型語言模型對牙科問題的回答，發現ChatGPT-4表現最好，但所有模型都有不準確和缺乏參考來源的問題。強調語言模型在牙科領域的潛力，但也提到目前的限制需要謹慎處理。建議牙醫要保持批判思考，並進一步研究如何安全地應用語言模型在牙科實務上，同時呼籲監管措施以監督技術使用。 PubMed DOI

The Comparative Diagnostic Capability of Large Language Models in Otolaryngology.
大型語言模型在耳鼻喉科的比較診斷能力。 Laryngoscope 2024-04-02

研究發現大型語言模型在耳鼻喉科疾病診斷中表現不錯，ChatGPT-3.5準確率最高達89%，建議仍需醫師監督。 PubMed DOI

Evaluation of large language models as a diagnostic aid for complex medical cases.
大型語言模型作為複雜醫學案例診斷輔助的評估。 Front Med (Lausanne) 2024-07-05

研究比較了大型語言模型（LLMs）在臨床案例診斷上的表現，發現GPT4比GPT3.5更準確且提供更專業的診斷列表。然而，兩者仍有可能漏掉最可能的診斷。研究建議LLMs像GPT4可擴展診斷考慮範圍，但需改進以更符合疾病發生率和文獻。 PubMed DOI

Comprehensiveness of Large Language Models in Patient Queries on Gingival and Endodontic Health.
大型語言模型在牙齦和根管健康患者詢問中的全面性。 Int Dent J 2024-08-15

這項研究評估了兩個大型語言模型（LLMs），ChatGPT-3.5 和 ChatGPT-4，對牙齦和根管健康問題的回答效果。共提出33個問題，包含17個常識性和16個專家級問題，並以中英文呈現。三位專家對回答進行五分制評分。結果顯示，兩者在英文表現較佳，ChatGPT-4的平均得分為4.45，優於ChatGPT-3.5的4.03。常識性問題的評分普遍較高。研究強調了ChatGPT-4的優越性，並指出需進一步評估LLMs以解決其在不同語言環境中的局限性，避免口腔健康資訊誤解。 PubMed DOI

A comparison of the diagnostic ability of large language models in challenging clinical cases.
大型語言模型在挑戰性臨床案例中的診斷能力比較。 Front Artif Intell 2024-08-20

大型語言模型（LLMs）在臨床診斷支持上展現了潛力。本研究比較了Bing、ChatGPT和Gemini三個LLMs在處理複雜臨床案例的表現，並評估了一個新開發的評分標準。結果顯示，Gemini的表現最佳，且評分工具的可靠性高，觀察者間變異性低。研究強調不同情境下模型表現的差異，並指出在實施前需評估診斷模型的有效性，為AI在臨床應用的整合提供了新的討論基礎。 PubMed DOI

Evaluating Large Language Models in Dental Anesthesiology: A Comparative Analysis of ChatGPT-4, Claude 3 Opus, and Gemini 1.0 on the Japanese Dental Society of Anesthesiology Board Certification Exam.
評估大型語言模型在牙科麻醉學中的應用：ChatGPT-4、Claude 3 Opus 和 Gemini 1.0 在日本牙科麻醉學會董事認證考試中的比較分析。 Cureus 2024-10-29

本研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示，ChatGPT-4的正確率為51.2%，Claude 3 Opus為47.4%，而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳，但目前的正確率仍不足以支持臨床應用。研究指出，需改善高品質資訊的可獲得性及提示設計，以提升LLMs在牙科麻醉的實用性。 PubMed DOI

Large language models in periodontology: Assessing their performance in clinically relevant questions.
牙周病學中的大型語言模型：評估其在臨床相關問題中的表現。 J Prosthet Dent 2024-11-19

這項研究評估了四個大型語言模型（LLMs）在解答牙周病學問題的可靠性，包括ChatGPT 4.0、Google Gemini、Google Gemini Advanced和Microsoft Copilot。研究提出十個問題，並由兩位牙周病專家根據全面性、準確性、清晰度和相關性進行評分。結果顯示，ChatGPT 4.0表現最佳，而Google Gemini得分最低。雖然LLMs在臨床實踐中有潛力，但不應取代專業牙醫，因為不準確的資訊可能影響病人護理。總之，ChatGPT 4.0優於其他模型，但仍需注意其局限性。 PubMed DOI

Evaluation of the ability of large language models to self-diagnose oral diseases.
大型語言模型自我診斷口腔疾病的能力評估。 iScience 2025-01-06

大型語言模型（LLMs）在基礎牙科護理中展現潛力，特別是在診斷口腔疾病方面。評估顯示，這些模型在診斷顳顎關節障礙、牙周病、齲齒和錯牙合等病症上都有不錯的表現。特別是ChatGPT 3.5在中文中對牙髓炎的診斷能力從0%提升至61.7%，但對冠周炎的診斷能力下降。相比之下，ChatGPT 4.0在牙髓炎和冠周炎的診斷上都有顯著提升。總體來看，雖然LLMs在牙科護理中有潛力，但仍需進一步改進。 PubMed DOI

A Comparative Analysis of Three Large Language Models on Bruxism Knowledge.
三種大型語言模型在磨牙知識上的比較分析。 J Oral Rehabil 2025-02-06

這項研究評估了三個大型語言模型（LLMs）——ChatGPT-3.5、ChatGPT-4 和 Gemini，針對磨牙症的資訊提供效果。研究發現： 1. **可讀性**：三個模型的可讀性相似，但 Gemini 的回應對一般讀者來說更易懂。 2. **準確性**：GPT-3.5 的準確率最高，為 68.33%，GPT-4 為 65%，Gemini 則為 55%，三者差異不大。 3. **一致性**：所有模型在不同時間的回應一致性高，GPT-3.5 最高，達 95%。總結來說，這些模型雖然表現中等，但不應取代專業牙科建議。 PubMed DOI

Comparative analysis of large language models on rare disease identification.
大型語言模型在罕見疾病識別上的比較分析。 Orphanet J Rare Dis 2025-04-01

這項研究顯示大型語言模型（LLMs）在診斷罕見疾病方面的潛力，因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例，並比較了四個LLMs（ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B）與人類醫師的診斷準確性。結果顯示，LLMs的表現超越人類醫師，Claude 3.5 Sonnet的準確率達78.9%，而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具，但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

原始文章

站上相關主題文章列表