Performance of large language models in oral and maxillofacial surgery examinations.
大型語言模型在口腔顎面外科考試中的表現。 Int J Oral Maxillofac Surg 2024-06-26

這項研究測試了不同大型語言模型在回答口腔顎面外科多重選擇題時的準確度。這些模型的平均得分為62.5%，其中GPT-4表現最佳，達到76.8%。在各種問題類別中，模型的表現存在顯著差異。雖然這些模型在教學上可能有幫助，但在臨床決策之前，建議應謹慎使用，直到進一步發展和驗證。 PubMed DOI

Is Artificial Intelligence a Useful Tool for Clinical Practice of Oral and Maxillofacial Surgery?
人工智慧是否是口腔與顎面外科臨床實踐的有用工具？ J Craniofac Surg 2024-10-01

這項研究評估了ChatGPT Plus在口腔與顏面外科的回應效果，於Ege大學進行，涵蓋66個問題，依難易度分為簡單、中等和困難，主題包括牙科麻醉和拔牙。研究者使用7分制評分，結果顯示中位數準確性得分為5，75%的回應得分4以上；中位數品質得分為4，75%的回應得分3以上。不同難度的問題得分有顯著差異，較困難的問題得分較低。總體來看，ChatGPT Plus在簡單問題上表現良好，但對於需要詳細答案的問題則較弱。 PubMed DOI

ScholarGPT's performance in oral and maxillofacial surgery.
ScholarGPT 在口腔與顏面外科的表現。 J Stomatol Oral Maxillofac Surg 2024-10-10

這項研究評估了Scholar GPT在口腔及顏面外科技術問題上的表現，並與ChatGPT進行比較。共評估60個問題，涵蓋阻生牙、牙齒植體等主題。結果顯示，Scholar GPT的全球質量評分平均為4.48，明顯高於ChatGPT的3.1，且提供的回應更一致且高品質。研究建議，利用學術資料庫的GPT模型能產生更準確的信息，並建議開發專門針對口腔及顏面外科的模型，以提升AI生成內容的質量。 PubMed DOI

Evaluating Large Language Models in Dental Anesthesiology: A Comparative Analysis of ChatGPT-4, Claude 3 Opus, and Gemini 1.0 on the Japanese Dental Society of Anesthesiology Board Certification Exam.
評估大型語言模型在牙科麻醉學中的應用：ChatGPT-4、Claude 3 Opus 和 Gemini 1.0 在日本牙科麻醉學會董事認證考試中的比較分析。 Cureus 2024-10-29

本研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示，ChatGPT-4的正確率為51.2%，Claude 3 Opus為47.4%，而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳，但目前的正確率仍不足以支持臨床應用。研究指出，需改善高品質資訊的可獲得性及提示設計，以提升LLMs在牙科麻醉的實用性。 PubMed DOI

Evaluating Artificial Intelligence Chatbots in Oral and Maxillofacial Surgery Board Exams: Performance and Potential.
評估人工智慧聊天機器人在口腔與顎面外科考試中的表現與潛力。 J Oral Maxillofac Surg 2024-12-06

這項研究評估了四種大型語言模型（LLMs）在口腔與顏面外科（OMS）考試問題上的表現，使用了714個問題。結果顯示，GPT-4o的準確率最高，達83.69%，明顯優於Gemini（66.85%）、GPT-3.5（64.83%）和Copilot（62.18%）。此外，GPT-4o在修正錯誤方面也表現優異，修正率高達98.2%。這些結果顯示，GPT-4o在OMS教育中具有潛力，但不同主題的表現差異顯示出進一步精煉和評估的必要性。 PubMed DOI

Evaluating ChatGPT-4's performance on oral and maxillofacial queries: Chain of Thought and standard method.
評估 ChatGPT-4 在口腔與顏面外科問題上的表現：思考鏈與標準方法。 Front Oral Health 2025-02-27

這項研究探討了ChatGPT-4在回答口腔及顏面外科疾病問題的有效性，這些疾病影響全球約35億人。研究使用思維鏈（CoT）方法，評估其在提升公眾對疾病預防和早期檢測認識的表現。專家從全國牙醫執照考試中選取了130道開放式問題和1,805道選擇題。結果顯示，CoT方法顯著提升了ChatGPT-4在開放式問題的準確性和整體表現，選擇題準確性也提高了3.1%。研究強調，ChatGPT-4不應取代醫療專業人員。 PubMed DOI

Can Artificial Intelligence Language Models Effectively Address Dental Trauma Questions?
人工智慧語言模型能有效解決牙科創傷問題嗎？ Dent Traumatol 2025-04-02

這項研究評估了五種大型語言模型（LLMs）在回答緊急牙科創傷問題的可靠性，依據國際牙科創傷學會的指導方針進行。研究結果顯示，ChatGPT 3.5的正確回答率最高（76.7%），其次是Copilot Pro（73.3%）和Copilot Free（70%）。雖然整體成功率差異不大，但Copilot和Gemini經常提供不準確的解釋，且缺乏可靠的參考資料。因此，雖然LLMs在牙科教育上有潛力，但在實踐中需謹慎使用。 PubMed DOI

The impact of the large language model ChatGPT in oral and maxillofacial surgery: a systematic review.
大型語言模型 ChatGPT 在口腔顎面外科的影響：系統性回顧 Br J Oral Maxillofac Surg 2025-04-18

這篇系統性回顧發現，ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果，尤其在產生手術同意書和術後支持表現不錯，但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具，需專業人員監督，不能完全取代醫師判斷。 PubMed DOI

Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估：ChatGPT-4.0 與 DeepSeek-R1 的比較分析 Am J Otolaryngol 2025-05-14

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節，DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善，目前都還不適合提供個別病人專業建議，AI在這領域還需加強。 PubMed DOI

Performance of GPT-4 in oral and maxillofacial surgery board exams: challenges in specialized questions.
GPT-4 在口腔顎面外科專科醫師考試中的表現：專業題目面臨的挑戰 Oral Maxillofac Surg 2025-05-30

這項研究發現，GPT-4在口腔顎面外科專科考題的整體正確率為62%，對藥理學和解剖學表現較好，但在牙科植體和正顎手術等專業題目較弱。顯示GPT-4對一般醫學教育有幫助，但在專業領域還有待加強，未來應持續改進才能應用於進階醫療。 PubMed DOI

原始文章

站上相關主題文章列表