How valuable are the questions and answers generated by large language models in oral and maxillofacial surgery?
大型語言模型在口腔顎面外科領域所產生的問答內容有多大的價值?
PLoS One 2025-05-28
這項研究發現,ChatGPT-4、ChatGPT-4o 和 Claude 3-Opus 在口腔顎面外科題目的答對率都超過九成,但沒辦法完全正確回答自己出的所有題目。帶圖片的題目表現比純文字好,顯示多模態輸入有助提升準確度。不過,AI 偶爾還是會出錯或產生幻覺,使用時要多加留意。
PubMedDOI♡
站上相關主題文章列表
Performance of large language models in oral and maxillofacial surgery examinations.
大型語言模型在口腔顎面外科考試中的表現。
Int J Oral Maxillofac Surg 2024-06-26
Evaluating Large Language Models in Dental Anesthesiology: A Comparative Analysis of ChatGPT-4, Claude 3 Opus, and Gemini 1.0 on the Japanese Dental Society of Anesthesiology Board Certification Exam.
評估大型語言模型在牙科麻醉學中的應用:ChatGPT-4、Claude 3 Opus 和 Gemini 1.0 在日本牙科麻醉學會董事認證考試中的比較分析。
Cureus 2024-10-29
本研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 1.0 和 Claude 3 Opus—在回答日本麻醉學會牙科麻醉專業認證考試問題的表現。結果顯示,ChatGPT-4的正確率為51.2%,Claude 3 Opus為47.4%,而Gemini 1.0僅有30.3%。雖然前兩者在某些領域表現較佳,但目前的正確率仍不足以支持臨床應用。研究指出,需改善高品質資訊的可獲得性及提示設計,以提升LLMs在牙科麻醉的實用性。
PubMedDOI
Evaluating Artificial Intelligence Chatbots in Oral and Maxillofacial Surgery Board Exams: Performance and Potential.
評估人工智慧聊天機器人在口腔與顎面外科考試中的表現與潛力。
J Oral Maxillofac Surg 2024-12-06
Evaluating ChatGPT-4's performance on oral and maxillofacial queries: Chain of Thought and standard method.
評估 ChatGPT-4 在口腔與顏面外科問題上的表現:思考鏈與標準方法。
Front Oral Health 2025-02-27
The impact of the large language model ChatGPT in oral and maxillofacial surgery: a systematic review.
大型語言模型 ChatGPT 在口腔顎面外科的影響:系統性回顧
Br J Oral Maxillofac Surg 2025-04-18
Evaluating advanced AI reasoning models: ChatGPT-4.0 and DeepSeek-R1 diagnostic performance in otolaryngology: a comparative analysis.
進階 AI 推理模型於耳鼻喉科診斷表現之評估:ChatGPT-4.0 與 DeepSeek-R1 的比較分析
Am J Otolaryngol 2025-05-14
Performance of GPT-4 in oral and maxillofacial surgery board exams: challenges in specialized questions.
GPT-4 在口腔顎面外科專科醫師考試中的表現:專業題目面臨的挑戰
Oral Maxillofac Surg 2025-05-30