原始文章

這項研究探討了ChatGPT-4在土耳其神經學專業考試中的表現,結果顯示其成功率在2021至2023年間達79%到82%。這是首次在真實醫療執照考試中評估ChatGPT的能力,且其表現優於GPT-3.5。將問題翻譯成英文也未影響其表現。該模型能在收到反饋後修正錯誤,展現出靈活性。不過,研究強調使用AI模型時需謹慎,因為它們不一定總能提供正確答案。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT4o在回答日本認證物理醫師考試問題的表現,重點在於準確性及其作為教育和臨床支援工具的潛力。2021年正確率79.1%,2022年80.0%,2023年達86.3%,整體準確率為81.8%。文字型問題表現較佳,正確率83.0%,影像型問題則為70.0%。大部分錯誤與資訊問題有關,佔92.8%。研究顯示,雖然ChatGPT4o在教育上有潛力,但在臨床應用,特別是影像解讀和專業主題上仍需改進。 PubMed DOI

這項研究評估了ChatGPT-4.0和Gemini Advanced在2020及2021年土耳其牙科專業考試的表現。結果顯示,ChatGPT-4.0的正確回答率高於Gemini Advanced,2020年為83.3%對65%,2021年為80.5%對60.2%。雖然兩者都通過考試,但分數仍低於最佳人類考生。特別是在基礎科學和臨床科學方面表現不佳,只有在牙周病學上較為突出。總體而言,這些AI聊天機器人的表現未達最佳考生水準。 PubMed DOI

這項研究評估了ChatGPT在土耳其骨科與創傷學考試的表現,分析了過去四年400道公開考題的結果。結果顯示,ChatGPT的得分超過98.7%的考生,且具統計學意義,顯示其表現優於平均考生。儘管ChatGPT在理論部分表現出色,研究仍強調人類因素的重要性,因為這些因素結合了理論與實踐知識,對醫療實踐至關重要。這是首次在此醫學考試背景下評估ChatGPT的能力。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現,特別關注繁體中文的能力。結果顯示,ChatGPT-3.5在基礎醫學科學的準確率為67.7%,臨床醫學為53.2%;而ChatGPT-4的表現明顯優於前者,準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大,但ChatGPT-4在所有科目中均表現良好,顯示AI在醫學教育中的潛力,實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

這項研究發現,ChatGPT-4o在土耳其骨科專科考試的表現比實際考生還好,總分拿到70.2分(考生平均58分)。它答對圖片題的機率有62%,文字題則有70%。GPT-4o在基礎醫學表現突出,但重建手術題較弱。無論AI還是考生,下肢和足部題目都最難。整體來說,GPT-4o在醫學教育上很有潛力,有些領域甚至比人類還強。 PubMed DOI

這項研究發現,ChatGPT-3.5 Turbo在歐洲眼科醫學會考試的多重是非題表現不錯,平均得分64.4%,但在單一最佳答案題型只拿到28.4%,明顯輸給人類考生。它在資訊查找上較強,但知識整合能力較弱。整體來說,ChatGPT適合當作眼科考試準備和回饋的輔助工具。 PubMed DOI

研究比較四款大型語言模型在2021年土耳其醫學專科考試的表現,ChatGPT 4正確率最高(88.75%),Llama 3 70B(79.17%)、Gemini 1.5 Pro(78.13%)次之,Command R+僅50%。ChatGPT 4在基礎和臨床醫學題目都很強,顯示它和Llama 3 70B有潛力協助土耳其語醫學教育與臨床應用,其他兩款則還需加強。 PubMed DOI

這項研究比較 ChatGPT-3.5、ChatGPT-4 和 Gemini 在土耳其骨科專科考試的表現,發現 ChatGPT-4 表現最好,某些領域正確率高達 95%,甚至超越住院醫師。題目越短,AI 答對率越高。結果顯示 ChatGPT-4 在醫學教育和臨床決策上很有潛力,但還是需要持續評估和改進。 PubMed DOI

ChatGPT-4參加西班牙醫師考試,200題答對150題,成績約在1,900到2,300名之間,已能申請多數醫學專科。它在有無圖片題目表現差不多,難題表現較弱,跟人類類似。研究認為AI有教育潛力,但會出錯,不能取代醫師,答案還是要專業審查。 PubMed DOI

這項研究發現,ChatGPT 3.5在伊朗醫師執照考試中,用英文作答的正確率(61.4%)明顯高於波斯語(35.7%),整體正確率為48.5%,一致性高達91%。在基礎醫學和實習前考試有及格表現,住院醫師前考試則僅達最低標準,顯示其在醫學教育上有潛力,但語言能力仍有限。 PubMed DOI