原始文章

這項研究評估了Scholar GPT在口腔及顏面外科技術問題上的表現,並與ChatGPT進行比較。共評估60個問題,涵蓋阻生牙、牙齒植體等主題。結果顯示,Scholar GPT的全球質量評分平均為4.48,明顯高於ChatGPT的3.1,且提供的回應更一致且高品質。研究建議,利用學術資料庫的GPT模型能產生更準確的信息,並建議開發專門針對口腔及顏面外科的模型,以提升AI生成內容的質量。 PubMed DOI


站上相關主題文章列表

這項研究測試了不同大型語言模型在回答口腔顎面外科多重選擇題時的準確度。這些模型的平均得分為62.5%,其中GPT-4表現最佳,達到76.8%。在各種問題類別中,模型的表現存在顯著差異。雖然這些模型在教學上可能有幫助,但在臨床決策之前,建議應謹慎使用,直到進一步發展和驗證。 PubMed DOI

這項研究評估了ChatGPT在顱面臨床案例中的表現,並與專業人士進行比較。研究中提出38個案例,結果顯示專業人士的表現明顯優於ChatGPT,AIPI分數分別為18.71和16.39(p<0.001)。專家指出,ChatGPT在診斷、治療及考量患者數據方面表現不佳,且對額外檢查的建議也不夠充分。總體而言,ChatGPT在顱面臨床案例中的效率較低,需改進。 PubMed DOI

這項研究評估了ChatGPT Plus在口腔與顏面外科的回應效果,於Ege大學進行,涵蓋66個問題,依難易度分為簡單、中等和困難,主題包括牙科麻醉和拔牙。研究者使用7分制評分,結果顯示中位數準確性得分為5,75%的回應得分4以上;中位數品質得分為4,75%的回應得分3以上。不同難度的問題得分有顯著差異,較困難的問題得分較低。總體來看,ChatGPT Plus在簡單問題上表現良好,但對於需要詳細答案的問題則較弱。 PubMed DOI

這項研究比較了ChatGPT-3.5、ChatGPT-4和Google Gemini在正顎手術問題上的回應可靠性,使用定量分析方法。研究團隊設計了64個問題的問卷,並由兩位專家評估這三個AI的回應。結果顯示,雖然ChatGPT-3.5的可靠性得分最高,但三者表現相似。特別是Google Gemini在提供醫生建議和圖形元素方面表現優異,這在其他兩者中並未出現。研究建議未來需進一步評估AI在醫療領域的能力。 PubMed DOI

顏面外科創傷在急診科常見,對未受過專業訓練的醫師來說是一大挑戰,可能導致轉診增加及會診壓力。近期研究評估了ChatGPT在診斷和管理顏面外科創傷的有效性,並與整形外科住院醫師的回應進行比較。結果顯示,ChatGPT在診斷準確性上表現優於住院醫師,但在管理建議方面則較弱。總體而言,ChatGPT在急診環境中可作為診斷輔助工具,但在治療計畫上仍需改進。 PubMed DOI

這項研究評估了四種大型語言模型(LLMs)在口腔與顏面外科(OMS)考試問題上的表現,使用了714個問題。結果顯示,GPT-4o的準確率最高,達83.69%,明顯優於Gemini(66.85%)、GPT-3.5(64.83%)和Copilot(62.18%)。此外,GPT-4o在修正錯誤方面也表現優異,修正率高達98.2%。這些結果顯示,GPT-4o在OMS教育中具有潛力,但不同主題的表現差異顯示出進一步精煉和評估的必要性。 PubMed DOI

這篇系統性回顧發現,ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果,尤其在產生手術同意書和術後支持表現不錯,但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具,需專業人員監督,不能完全取代醫師判斷。 PubMed DOI

這項研究發現,ScholarGPT 在牙髓根尖手術問題的答題正確率最高,達97.7%,優於 ChatGPT-4o(90.1%)和 Google Gemini(59.5%)。主要原因是 ScholarGPT 有用學術資料庫,答案更精確。結果顯示,專為學術領域訓練的 GPT 模型在牙科主題上較可靠,但仍需更多研究來開發專門的牙髓病學模型。 PubMed DOI

這項研究發現,ChatGPT-4、ChatGPT-4o 和 Claude 3-Opus 在口腔顎面外科題目的答對率都超過九成,但沒辦法完全正確回答自己出的所有題目。帶圖片的題目表現比純文字好,顯示多模態輸入有助提升準確度。不過,AI 偶爾還是會出錯或產生幻覺,使用時要多加留意。 PubMed DOI

這項研究發現,GPT-4在口腔顎面外科專科考題的整體正確率為62%,對藥理學和解剖學表現較好,但在牙科植體和正顎手術等專業題目較弱。顯示GPT-4對一般醫學教育有幫助,但在專業領域還有待加強,未來應持續改進才能應用於進階醫療。 PubMed DOI