原始文章

這項研究發現,ChatGPT-4o在土耳其骨科專科考試的表現比實際考生還好,總分拿到70.2分(考生平均58分)。它答對圖片題的機率有62%,文字題則有70%。GPT-4o在基礎醫學表現突出,但重建手術題較弱。無論AI還是考生,下肢和足部題目都最難。整體來說,GPT-4o在醫學教育上很有潛力,有些領域甚至比人類還強。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現,特別是版本3.5和4。分析了2017至2022年的多選題,結果顯示ChatGPT-4在所有考試中表現優於3.5,且每次考試都達到及格分數(≥60%)。不過,ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看,研究指出ChatGPT-4能有效回答複雜醫學問題,但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

這項研究評估了ChatGPT 3.5和4在回答骨科考試問題的表現,使用了來自首爾國立大學醫院的160道問題,分為11個子類別。結果顯示,ChatGPT 3.5的正確率為37.5%,而ChatGPT 4提升至60.0%(p < 0.001)。大部分類別中,ChatGPT 4表現較佳,唯獨在腫瘤相關問題上不如3.5。此外,ChatGPT 4的回答不一致率顯著低於3.5(9.4%對比47.5%)。雖然ChatGPT 4在骨科考試中表現不錯,但仍需謹慎對待其不一致的回答和錯誤解釋。 PubMed DOI

這項研究評估了ChatGPT在骨科住院醫師考試(OITE)中的表現,分析了其對2022年考題的回答。結果顯示,ChatGPT的整體正確率為48.3%,在67.6%的問題中展現了邏輯推理能力,並在68.1%的案例中有效利用資訊。然而,回答中常見的問題是資訊謬誤,顯示出提供不正確資訊的傾向。雖然它在某些方面有能力,但目前的限制使其不太可能成為可靠的學習資源。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現,分析了過去四年400道公開考題的結果。結果顯示,ChatGPT的得分超過98.7%的考生,且具統計學意義,顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色,研究仍強調人類因素的重要性,因為這些因素結合了理論與實踐知識,對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

這項研究評估了ChatGPT 4.0在2022年骨科與創傷學專科考試的多選題表現,分析了95道題目,正確率為61.05%。結果顯示,無論問題字數或分類,表現差異不大。雖然ChatGPT在骨科知識上表現不錯,但仍需進一步發展和人類監督,以確保其有效性。這項研究屬於第四級證據,屬於病例系列。 PubMed DOI

這項研究發現,ChatGPT-4 和專門訓練的 Orthopod 模型在骨科住院醫師考題上的表現差不多,答對率分別為 73.4% 和 71.0%,沒有明顯差異。兩者都能提供清楚、有條理的解釋,對骨科住院醫師準備專科考試很有幫助。 PubMed DOI

這項研究比較 ChatGPT-3.5、ChatGPT-4 和 Gemini 在土耳其骨科專科考試的表現,發現 ChatGPT-4 表現最好,某些領域正確率高達 95%,甚至超越住院醫師。題目越短,AI 答對率越高。結果顯示 ChatGPT-4 在醫學教育和臨床決策上很有潛力,但還是需要持續評估和改進。 PubMed DOI

這項研究發現,結合RAG技術的ChatGPT-4在骨科考題上的表現,正確率約74%,跟骨科醫師差不多,也比沒用RAG的ChatGPT-4和3.5好。RAG還能讓AI引用資料來源,提升可信度,對骨科教學和考試準備很有幫助。 PubMed DOI

這項研究發現,ChatGPT-4在回答關節置換相關問題時,正確率只有66.9%,明顯低於骨科研究員和主治醫師。特別是在有圖片的題目上,表現更差。雖然ChatGPT可當作學習輔助,但還無法取代專業醫師的臨床判斷,未來還需更多研究來提升AI在醫療領域的應用。 PubMed DOI