原始文章

ChatGPT 3.5 用來測驗近十年整形外科住院醫師考題(不含圖片),正確率只有約 46%,明顯低於住院醫師平均。它在基本知識和乳房、醫美題目表現較好,但遇到需要複雜推理或手部、下肢相關題目就比較弱。整體來說,ChatGPT 現階段還不適合拿來做臨床決策或考試準備。 PubMed


站上相關主題文章列表

這項研究評估了ChatGPT在骨科住院醫師考試(OITE)中的表現,分析了其對2022年考題的回答。結果顯示,ChatGPT的整體正確率為48.3%,在67.6%的問題中展現了邏輯推理能力,並在68.1%的案例中有效利用資訊。然而,回答中常見的問題是資訊謬誤,顯示出提供不正確資訊的傾向。雖然它在某些方面有能力,但目前的限制使其不太可能成為可靠的學習資源。 PubMed DOI

這項研究評估了ChatGPT 3.5在婦產科個人學習回顧(PROLOG)中的表現,主要針對住院醫師的教育效果。結果顯示,ChatGPT在848個非視覺問題中正確率為57.8%,一級問題的表現(60.5%)優於高階問題(56.8%)。但在65個包含視覺資料的問題中,正確率僅有16.9%。由於PROLOG的及格分數是80%,ChatGPT未能達標,顯示其在專業知識和邏輯推理上仍有不足,無法成為可靠的教育工具。 PubMed DOI

本研究探討ChatGPT在唇裂修復方面的回應質量與準確性,因為大型語言模型在健康資訊傳播中越來越常見。研究選取十個常見問題,並由五位整形外科醫師評估其內容質量、清晰度、相關性和可信度。結果顯示,ChatGPT的平均評分為2.9分,清晰度和內容質量較高,但可信度較低。可讀性適合約10年級學生。雖然回應中無明顯不準確或有害資訊,但缺乏引用來源,使用者需注意其局限性。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現,分析了過去四年400道公開考題的結果。結果顯示,ChatGPT的得分超過98.7%的考生,且具統計學意義,顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色,研究仍強調人類因素的重要性,因為這些因素結合了理論與實踐知識,對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

一項研究比較了GPT-4和GPT-3.5在2022年整形外科進修考試的表現,結果顯示GPT-4的準確率為63%,高於GPT-3.5的58%。研究使用了三種提示策略,開放式問題準確率54%,多選題67%,帶解釋的多選題68%。GPT-4在乳房與美容部分的準確率最高,達74%。儘管GPT-4表現較佳,但其最高分仍僅在第15百分位,顯示其在外科訓練中仍需改進,才能成為有效的教育工具。 PubMed DOI

這項研究發現,ChatGPT 3.5在皮膚科住院醫師考題表現不如資深醫師,只能應付簡單題目;4.0版雖然進步,能達到部分初中階醫師水準,但遇到難題還是有瓶頸。整體來說,ChatGPT 4.0在皮膚科教育有潛力,但目前還無法取代資深醫師,未來若持續進步,對醫學訓練會更有幫助。 PubMed DOI

ChatGPT 在通用外科考試拿到 72.7 分,超過及格線,生理學和選擇題表現不錯,但解剖學和需要分析的題目比較弱。雖然有潛力協助醫學教育,但還有不少限制,未來要再多研究和評估,才能廣泛應用。 PubMed DOI

這項研究發現,GPT-4在口腔顎面外科專科考題的整體正確率為62%,對藥理學和解剖學表現較好,但在牙科植體和正顎手術等專業題目較弱。顯示GPT-4對一般醫學教育有幫助,但在專業領域還有待加強,未來應持續改進才能應用於進階醫療。 PubMed DOI

這項研究發現,ChatGPT-4在回答關節置換相關問題時,正確率只有66.9%,明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上,表現更差。雖然ChatGPT可當作學習輔助,但還無法取代專業醫師的臨床判斷,未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI