原始文章

這項研究評估了ChatGPT 3.5和4在回答骨科考試問題的表現,使用了來自首爾國立大學醫院的160道問題,分為11個子類別。結果顯示,ChatGPT 3.5的正確率為37.5%,而ChatGPT 4提升至60.0%(p < 0.001)。大部分類別中,ChatGPT 4表現較佳,唯獨在腫瘤相關問題上不如3.5。此外,ChatGPT 4的回答不一致率顯著低於3.5(9.4%對比47.5%)。雖然ChatGPT 4在骨科考試中表現不錯,但仍需謹慎對待其不一致的回答和錯誤解釋。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT的GPT-3.5和GPT-4模型在解答韓國外科醫師考試問題時的表現,結果顯示GPT-4準確率高達76.4%,明顯勝過GPT-3.5的46.8%。GPT-4在各專業領域都表現穩定,但仍需搭配人類專業知識和判斷力。 PubMed DOI

對於像ChatGPT這樣的大型語言模型(LLMs)的興趣越來越高,未來可能應用在醫學考試上。研究發現,GPT-4在神經外科醫學委員會考試中的表現比ChatGPT好,得分更高且答對問題更多。ChatGPT在處理複雜問題時受限,但GPT-4則表現穩定。總體而言,兩者在考試中表現不錯,GPT-4明顯比ChatGPT進步。 PubMed DOI

研究比較了ChatGPT和GPT-4在沒有圖像的骨科住院醫師考試(OITE)上的表現。ChatGPT在PGY-1級別回答問題的準確率為54.3%,並有47.2%引用來源,期刊影響因子為5.4。GPT-4在PGY-5級別回答問題的準確率為73.6%,並有87.9%引用來源,期刊影響因子為5.2。結果顯示GPT-4優於平均PGY-5級別,顯示明顯進步。AI有潛力提升醫學教育和醫療服務效率。 PubMed DOI

研究探討使用GPT-3.5 Turbo和GPT-4等AI模型進行骨科培訓考試。結果顯示,GPT-4在準確性和問題類型上優於GPT-3.5 Turbo,顯示AI在骨科領域有潛力。然而,目前AI無法取代骨科培訓,顯示醫學領域需要專門的AI培訓。 PubMed DOI

研究指出,ChatGPT在骨科住院醫師培訓考試中表現優異,尤其在基礎科學、腫瘤學、肩膀/肘部和運動方面表現突出。問題分為管理、診斷和知識回憶三類,ChatGPT在提供委員會風格問題的臨床結論方面有潛力。然而,其推理能力仍需進一步評估。ChatGPT在臨床教育中有廣泛應用前景,有助於準確解答臨床問題。 PubMed DOI

大型語言模型如ChatGPT發展迅速,據報導,GPT-3.5已達到醫學考試水準。新GPT-4V有圖像識別功能,對醫學有潛力。研究顯示GPT-4在骨科手術表現優於GPT-3.5,GPT-4V也有潛力。ChatGPT可通過骨科專科醫師考試,未來應用需更多訓練數據。 PubMed DOI

研究發現AI語言模型ChatGPT在2021年骨科住院醫師培訓考試(OITE)中表現不錯,得分61.2%,跟一名平均第三年的醫師相當。評審間一致,回答合理。未來需進一步研究對學習和考試的長期影響。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5)在骨科知識和推理能力的表現,測試了472道來自不同來源的考題。結果顯示,ChatGPT的正確回答率為55.9%,且92.8%的正確答案與資料解釋一致。雖然它運用了內外部資訊和邏輯推理,但在81.7%的錯誤回答中未能識別必要資訊。整體來看,ChatGPT的表現低於美國骨科外科醫學委員會考試的通過門檻,與實習醫生或二年級住院醫師相當,顯示出在準確識別資訊方面的重大限制。 PubMed DOI

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現,特別是版本3.5和4。分析了2017至2022年的多選題,結果顯示ChatGPT-4在所有考試中表現優於3.5,且每次考試都達到及格分數(≥60%)。不過,ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看,研究指出ChatGPT-4能有效回答複雜醫學問題,但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

這項研究評估了ChatGPT 4.0在2019年骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT在純文字問題的正確率為49%,而帶有圖片的問題為48%。當圖片描述由AI生成時,表現下降6%。整體來看,ChatGPT的表現低於所有住院醫師班級,尤其比一年級住院醫師低4%。研究指出,雖然ChatGPT在醫學考試中有一定能力,但仍未達到住院醫師的水準,顯示AI在醫學教育中的潛力與限制。 PubMed DOI