原始文章

ChatGPT-4參加西班牙醫師考試,200題答對150題,成績約在1,900到2,300名之間,已能申請多數醫學專科。它在有無圖片題目表現差不多,難題表現較弱,跟人類類似。研究認為AI有教育潛力,但會出錯,不能取代醫師,答案還是要專業審查。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性,並探討其在超聲醫學教育中的應用潛力。共選取100道題目,包含70道單選題和30道多選題,涵蓋基礎知識、臨床知識、專業知識及實踐。 測試結果顯示,ChatGPT 3.5版本在單選題準確率為35.7%,多選題30.0%;而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步,但仍未達及格標準,且在專業實踐方面表現不佳。儘管如此,ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

這項研究評估了ChatGPT在西班牙神經科專科考試中的表現,特別是版本3.5和4,並與人類醫生進行比較。考試包含80道多選題,結果顯示人類醫生中位數得分為5.91,32人未通過。ChatGPT-3.5得分3.94,正確率54.5%,排名第116;而ChatGPT-4得分7.57,正確率81.8%,排名第17,超越許多人類專家。研究顯示,ChatGPT-4在醫學知識評估中有顯著進步,顯示其在專業醫學教育中的潛在價值。 PubMed DOI

這項研究評估了ChatGPT 3.5和4o版本在葡萄牙國家住院醫師入學考試的表現,分析了2019至2023年五個考試版本的750道選擇題。結果顯示,ChatGPT 4o的中位數分數為127,顯著高於ChatGPT 3.5的106(p = 0.048),並在兩個版本中進入前1%。ChatGPT 4o的表現也超越了人類考生的中位數,符合醫學專科資格。研究指出,雖然ChatGPT 4o可成為醫學教育的資源,但仍需人類監督以確保臨床安全與準確性。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現,特別關注繁體中文的能力。結果顯示,ChatGPT-3.5在基礎醫學科學的準確率為67.7%,臨床醫學為53.2%;而ChatGPT-4的表現明顯優於前者,準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大,但ChatGPT-4在所有科目中均表現良好,顯示AI在醫學教育中的潛力,實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

這項研究發現,ChatGPT-4在有選擇題選項時,答對率超過86%,但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊,但不是真的懂臨床情境。未來如果和專業醫療人員搭配,有機會幫助臨床工作,但還需要更多測試來確保安全和有效。 PubMed DOI

ChatGPT-4o 在英美醫師執照考試表現亮眼,即使遇到全新題目也能高分,證明不是只靠背題庫。不過,遇到圖片型選項時表現就變差。這說明單靠出新題或圖片題,無法完全防堵 AI 作弊,還是得有嚴格監考和安全措施,才能確保考試公平。 PubMed DOI

這項研究發現,ChatGPT 3.5在皮膚科住院醫師考題表現不如資深醫師,只能應付簡單題目;4.0版雖然進步,能達到部分初中階醫師水準,但遇到難題還是有瓶頸。整體來說,ChatGPT 4.0在皮膚科教育有潛力,但目前還無法取代資深醫師,未來若持續進步,對醫學訓練會更有幫助。 PubMed DOI

這項研究發現,ChatGPT 3.5在伊朗醫師執照考試中,用英文作答的正確率(61.4%)明顯高於波斯語(35.7%),整體正確率為48.5%,一致性高達91%。在基礎醫學和實習前考試有及格表現,住院醫師前考試則僅達最低標準,顯示其在醫學教育上有潛力,但語言能力仍有限。 PubMed DOI