原始文章

這項研究發現,GPT-4在口腔顎面外科專科考題的整體正確率為62%,對藥理學和解剖學表現較好,但在牙科植體和正顎手術等專業題目較弱。顯示GPT-4對一般醫學教育有幫助,但在專業領域還有待加強,未來應持續改進才能應用於進階醫療。 PubMed DOI


站上相關主題文章列表

這項研究評估了Scholar GPT在口腔及顏面外科技術問題上的表現,並與ChatGPT進行比較。共評估60個問題,涵蓋阻生牙、牙齒植體等主題。結果顯示,Scholar GPT的全球質量評分平均為4.48,明顯高於ChatGPT的3.1,且提供的回應更一致且高品質。研究建議,利用學術資料庫的GPT模型能產生更準確的信息,並建議開發專門針對口腔及顏面外科的模型,以提升AI生成內容的質量。 PubMed DOI

這項研究探討了ChatGPT-4在回答口腔及顏面外科疾病問題的有效性,這些疾病影響全球約35億人。研究使用思維鏈(CoT)方法,評估其在提升公眾對疾病預防和早期檢測認識的表現。專家從全國牙醫執照考試中選取了130道開放式問題和1,805道選擇題。結果顯示,CoT方法顯著提升了ChatGPT-4在開放式問題的準確性和整體表現,選擇題準確性也提高了3.1%。研究強調,ChatGPT-4不應取代醫療專業人員。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試(OITE)中的表現。結果顯示,GPT-4的表現超過及格門檻,與高年級住院醫師相當,明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格,且在影像相關問題上,GPT-3.5表現顯著下降。整體來看,GPT-4在各類問題上展現出強大的能力,超越了考試的最低要求。 PubMed DOI

一項研究比較了GPT-4和GPT-3.5在2022年整形外科進修考試的表現,結果顯示GPT-4的準確率為63%,高於GPT-3.5的58%。研究使用了三種提示策略,開放式問題準確率54%,多選題67%,帶解釋的多選題68%。GPT-4在乳房與美容部分的準確率最高,達74%。儘管GPT-4表現較佳,但其最高分仍僅在第15百分位,顯示其在外科訓練中仍需改進,才能成為有效的教育工具。 PubMed DOI

這篇系統性回顧發現,ChatGPT在口腔顎面外科的臨床決策、手術規劃和病患衛教等方面有輔助效果,尤其在產生手術同意書和術後支持表現不錯,但在藥理學和複雜病例處理上仍有限。建議將ChatGPT作為輔助工具,需專業人員監督,不能完全取代醫師判斷。 PubMed DOI

這項研究測試了11款大型語言模型在耳鼻喉科專科考題上的表現,GPT-4o正確率最高,特別擅長過敏學和頭頸腫瘤題目。Claude系列表現也不錯,但還是略輸GPT-4。GPT-3.5 Turbo的正確率則比去年下降。所有模型答單選題都比多選題好。整體來看,新一代LLM在醫療領域很有潛力,但表現會變動,需持續追蹤和優化。 PubMed DOI

這項研究發現,ChatGPT-4、ChatGPT-4o 和 Claude 3-Opus 在口腔顎面外科題目的答對率都超過九成,但沒辦法完全正確回答自己出的所有題目。帶圖片的題目表現比純文字好,顯示多模態輸入有助提升準確度。不過,AI 偶爾還是會出錯或產生幻覺,使用時要多加留意。 PubMed DOI

ChatGPT 3.5 用來測驗近十年整形外科住院醫師考題(不含圖片),正確率只有約 46%,明顯低於住院醫師平均。它在基本知識和乳房、醫美題目表現較好,但遇到需要複雜推理或手部、下肢相關題目就比較弱。整體來說,ChatGPT 現階段還不適合拿來做臨床決策或考試準備。 PubMed

這項研究發現,ChatGPT-4o在日本牙體技術師考試的基礎知識題表現不錯,但遇到專業、需要看圖或操作的題目就比較不行。它在牙科材料題的正確率最高,但在矯正和兒童牙科技術題表現較差。整體來說,ChatGPT-4o適合當牙科學習輔助工具,但影像辨識和操作模擬能力還要再加強。 PubMed DOI

這項研究發現,GPT-4 在擬定七大牙科專科的治療計畫上,表現比 GPT-3.5 更好,尤其在複雜病例和口腔顎面外科領域更準確一致。顯示 GPT-4 有潛力協助牙科教育和臨床決策,但還是需要專家把關。 PubMed DOI