ScholarGPT's performance in oral and maxillofacial surgery.
ScholarGPT 在口腔與顏面外科的表現。 J Stomatol Oral Maxillofac Surg 2024-10-10

這項研究評估了Scholar GPT在口腔及顏面外科技術問題上的表現，並與ChatGPT進行比較。共評估60個問題，涵蓋阻生牙、牙齒植體等主題。結果顯示，Scholar GPT的全球質量評分平均為4.48，明顯高於ChatGPT的3.1，且提供的回應更一致且高品質。研究建議，利用學術資料庫的GPT模型能產生更準確的信息，並建議開發專門針對口腔及顏面外科的模型，以提升AI生成內容的質量。 PubMed DOI

Evaluating ChatGPT-4's performance on oral and maxillofacial queries: Chain of Thought and standard method.
評估 ChatGPT-4 在口腔與顏面外科問題上的表現：思考鏈與標準方法。 Front Oral Health 2025-02-27

這項研究探討了ChatGPT-4在回答口腔及顏面外科疾病問題的有效性，這些疾病影響全球約35億人。研究使用思維鏈（CoT）方法，評估其在提升公眾對疾病預防和早期檢測認識的表現。專家從全國牙醫執照考試中選取了130道開放式問題和1,805道選擇題。結果顯示，CoT方法顯著提升了ChatGPT-4在開放式問題的準確性和整體表現，選擇題準確性也提高了3.1%。研究強調，ChatGPT-4不應取代醫療專業人員。 PubMed DOI

Comparitive performance of artificial intelligence-based large language models on the orthopedic in-training examination.
人工智慧大型語言模型在骨科訓練考試中的比較表現。 J Orthop Surg (Hong Kong) 2025-03-03

這項研究評估了三個大型語言模型（LLMs）—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試（OITE）中的表現。結果顯示，GPT-4的表現超過及格門檻，與高年級住院醫師相當，明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格，且在影像相關問題上，GPT-3.5表現顯著下降。整體來看，GPT-4在各類問題上展現出強大的能力，超越了考試的最低要求。 PubMed DOI

Artificial Intelligence Augmentation: Performance of GPT-4 and GPT-3.5 on the Plastic Surgery In-service Examination.
人工智慧增強：GPT-4 和 GPT-3.5 在整形外科在職考試中的表現。 Plast Reconstr Surg Glob Open 2025-04-11

一項研究比較了GPT-4和GPT-3.5在2022年整形外科進修考試的表現，結果顯示GPT-4的準確率為63%，高於GPT-3.5的58%。研究使用了三種提示策略，開放式問題準確率54%，多選題67%，帶解釋的多選題68%。GPT-4在乳房與美容部分的準確率最高，達74%。儘管GPT-4表現較佳，但其最高分仍僅在第15百分位，顯示其在外科訓練中仍需改進，才能成為有效的教育工具。 PubMed DOI

The impact of the large language model ChatGPT in oral and maxillofacial surgery: a systematic review.
大型語言模型 ChatGPT 在口腔顎面外科的影響：系統性回顧 Br J Oral Maxillofac Surg 2025-04-18

這篇系統性回顧發現，ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果，尤其在產生手術同意書和術後支持表現不錯，但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具，需專業人員監督，不能完全取代醫師判斷。 PubMed DOI

Harnessing advanced large language models in otolaryngology board examinations: an investigation using python and application programming interfaces.
在耳鼻喉科專科醫師考試中運用先進大型語言模型：以 Python 與應用程式介面進行的探討 Eur Arch Otorhinolaryngol 2025-04-25

這項研究測試了11款大型語言模型在耳鼻喉科專科考題上的表現，GPT-4o正確率最高，特別擅長過敏學和頭頸腫瘤題目。Claude系列表現也不錯，但還是略輸GPT-4。GPT-3.5 Turbo的正確率則比去年下降。所有模型答單選題都比多選題好。整體來看，新一代LLM在醫療領域很有潛力，但表現會變動，需持續追蹤和優化。 PubMed DOI

How valuable are the questions and answers generated by large language models in oral and maxillofacial surgery?
大型語言模型在口腔顎面外科領域所產生的問答內容有多大的價值？ PLoS One 2025-05-28

這項研究發現，ChatGPT-4、ChatGPT-4o 和 Claude 3-Opus 在口腔顎面外科題目的答對率都超過九成，但沒辦法完全正確回答自己出的所有題目。帶圖片的題目表現比純文字好，顯示多模態輸入有助提升準確度。不過，AI 偶爾還是會出錯或產生幻覺，使用時要多加留意。 PubMed DOI

Performance of ChatGPT on the Plastic Surgery In-Training Examination.
ChatGPT 在整形外科住院醫師訓練考試中的表現 Eplasty 2025-06-04

ChatGPT 3.5 用來測驗近十年整形外科住院醫師考題（不含圖片），正確率只有約 46%，明顯低於住院醫師平均。它在基本知識和乳房、醫美題目表現較好，但遇到需要複雜推理或手部、下肢相關題目就比較弱。整體來說，ChatGPT 現階段還不適合拿來做臨床決策或考試準備。 PubMed

Evaluating the Accuracy and Performance of ChatGPT-4o in Solving Japanese National Dental Technician Examination.
ChatGPT-4o 在解答日本國家牙科技術師考試中的準確性與表現評估 Int Dent J 2025-06-10

這項研究發現，ChatGPT-4o在日本牙體技術師考試的基礎知識題表現不錯，但遇到專業、需要看圖或操作的題目就比較不行。它在牙科材料題的正確率最高，但在矯正和兒童牙科技術題表現較差。整體來說，ChatGPT-4o適合當牙科學習輔助工具，但影像辨識和操作模擬能力還要再加強。 PubMed DOI

Comparative Analysis of ChatGPT-3.5 and GPT-4 in Open-Ended Clinical Reasoning Across Dental Specialties.
ChatGPT-3.5 與 GPT-4 在牙科各專科開放式臨床推理中的比較分析 Eur J Dent Educ 2025-06-14

這項研究發現，GPT-4 在擬定七大牙科專科的治療計畫上，表現比 GPT-3.5 更好，尤其在複雜病例和口腔顎面外科領域更準確一致。顯示 GPT-4 有潛力協助牙科教育和臨床決策，但還是需要專家把關。 PubMed DOI

原始文章

站上相關主題文章列表