原始文章

這項研究發現,GPT-4在口腔顎面外科專科考題的整體正確率為62%,對藥理學和解剖學表現較好,但在牙科植體和正顎手術等專業題目較弱。顯示GPT-4對一般醫學教育有幫助,但在專業領域還有待加強,未來應持續改進才能應用於進階醫療。 PubMed DOI


站上相關主題文章列表

這項研究測試了不同大型語言模型在回答口腔顎面外科多重選擇題時的準確度。這些模型的平均得分為62.5%,其中GPT-4表現最佳,達到76.8%。在各種問題類別中,模型的表現存在顯著差異。雖然這些模型在教學上可能有幫助,但在臨床決策之前,建議應謹慎使用,直到進一步發展和驗證。 PubMed DOI

這項研究評估了GPT-4生成的整形外科在職訓練考試(PSITE)練習題的能力。結果顯示,雖然GPT-4能創建多選題,但質量普遍低於2022年的實際考題。GPT-4生成的問題可讀性較差,且問題較短,複雜度低。不同部分的可讀性差異明顯,核心外科原則較易讀,而顱顏面外科最難。總體來看,GPT-4的問題質量不佳,存在錯誤資訊。儘管如此,研究建議在有經驗醫生指導下,GPT-4仍可作為住院醫師的教育工具,但需謹慎使用。 PubMed DOI

這項研究評估了OpenAI的GPT-4o在波蘭的牙科考試(LDEK)中的表現,並與人類考生進行比較。GPT-4o的正確率為70.85%,在保守牙科和假牙牙科表現較佳,但在兒童牙科和矯正牙科則較差。臨床案例問題的準確性明顯低於事實性問題。研究顯示,GPT-4o在牙科教育中有輔助潛力,但在臨床推理和批判性思維上仍不及人類考生,特別是在複雜情境中。 PubMed DOI

這項研究評估了Scholar GPT在口腔及顏面外科技術問題上的表現,並與ChatGPT進行比較。共評估60個問題,涵蓋阻生牙、牙齒植體等主題。結果顯示,Scholar GPT的全球質量評分平均為4.48,明顯高於ChatGPT的3.1,且提供的回應更一致且高品質。研究建議,利用學術資料庫的GPT模型能產生更準確的信息,並建議開發專門針對口腔及顏面外科的模型,以提升AI生成內容的質量。 PubMed DOI

這項研究評估了GPT-4與GPT-3.5在耳鼻喉科考試問題上的表現。研究使用了150個來自BoardVitals的問題,結果顯示標準的GPT-4正確率為72.0%,而專為耳鼻喉科設計的自訂GPT-4模型則達到81.3%。相比之下,GPT-3.5的正確率僅51.3%。自訂模型的表現顯著優於標準模型,但兩者在較難問題上表現都有所下降。整體來看,GPT-4在這情境下表現優於GPT-3.5,自訂模型則進一步提升準確性,顯示其在醫學教育中的潛力。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在口腔與顏面外科(OMS)考試問題上的表現,使用了714個問題。結果顯示,GPT-4o的準確率最高,達83.69%,明顯優於Gemini(66.85%)、GPT-3.5(64.83%)和Copilot(62.18%)。此外,GPT-4o在修正錯誤方面也表現優異,修正率高達98.2%。這些結果顯示,GPT-4o在OMS教育中具有潛力,但不同主題的表現差異顯示出進一步精煉和評估的必要性。 PubMed DOI

一項研究比較了GPT-4和GPT-3.5在2022年整形外科進修考試的表現,結果顯示GPT-4的準確率為63%,高於GPT-3.5的58%。研究使用了三種提示策略,開放式問題準確率54%,多選題67%,帶解釋的多選題68%。GPT-4在乳房與美容部分的準確率最高,達74%。儘管GPT-4表現較佳,但其最高分仍僅在第15百分位,顯示其在外科訓練中仍需改進,才能成為有效的教育工具。 PubMed DOI

這篇系統性回顧發現,ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果,尤其在產生手術同意書和術後支持表現不錯,但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具,需專業人員監督,不能完全取代醫師判斷。 PubMed DOI

這項研究發現,ChatGPT-4、ChatGPT-4o 和 Claude 3-Opus 在口腔顎面外科題目的答對率都超過九成,但沒辦法完全正確回答自己出的所有題目。帶圖片的題目表現比純文字好,顯示多模態輸入有助提升準確度。不過,AI 偶爾還是會出錯或產生幻覺,使用時要多加留意。 PubMed DOI

這項研究發現,GPT-4 在擬定七大牙科專科的治療計畫上,表現比 GPT-3.5 更好,尤其在複雜病例和口腔顎面外科領域更準確一致。顯示 GPT-4 有潛力協助牙科教育和臨床決策,但還是需要專家把關。 PubMed DOI