原始文章

最近的研究顯示,像ChatGPT這樣的大型語言模型(LLMs)能有效通過美國醫學執照考試(USMLE),但對其在特定醫學領域的表現缺乏深入分析。研究比較了不同版本的ChatGPT(GPT-3.5、GPT-4和GPT-4 Omni)在750道臨床情境選擇題中的準確性。結果顯示,GPT-4 Omni的準確率最高,達90.4%,顯著超過其他版本及醫學生的平均準確率。這顯示出其在醫學教育中的潛在價值,但也強調了謹慎整合LLMs的重要性。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在美國醫師執照考試Step 1和Step 2的表現介於42%到64.4%之間,比InstructGPT和GPT-3表現更好。雖然在較難的問題上表現較差,但仍可提供合理答案和內部問題資訊。研究建議ChatGPT可能成為醫學教育中有用的工具,因為它準確且有邏輯性。 PubMed DOI

研究比較AI模型ChatGPT和GPT-4在USMLE問題上的表現,發現GPT-4比ChatGPT更厲害,正確率高達90%,回答問題時更有自信,不需修改答案。相對地,ChatGPT只有62.5%的正確率,常需要修改答案。GPT-4的表現超越過去AMBOSS使用者,展現出對於溝通、倫理、同理心和專業精神等軟實力的潛力。 PubMed DOI

研究指出ChatGPT 4在USMLE Step 3模擬測驗中表現優異,準確率高達84.7%,比3.5版本的56.9%好很多。雖然在各難度等級上表現不錯,但在應用理論概念的問題上稍嫌不足,尤其是在心臟病學和神經學領域。研究指出AI在醫學教育和診斷上有潛力,也提到了防止AI作弊的重要性。 PubMed DOI

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀,回答正確率高達86%,超過60%及格分數,且在臨床領域也表現不錯。這個新版本改進許多,各主題展現熟練度,可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導,有助於提升臨床前階段學習成果。 PubMed DOI

這項研究評估了ChatGPT-3.5在肺病學考試中的表現,並與三年級醫學生進行比較。研究分為兩組:244名法語醫學生和ChatGPT,後者以無上下文(V1)和有上下文(V2)兩種格式測試。結果顯示,V1在放射學和胸外科表現佳,但在病理學和藥理學上不理想;V2則在所有類別中表現更準確,並在開放式問題上優於學生。V2通過考試的比例超過62.1%,而V1未能通過。總體而言,ChatGPT的表現與醫學生相似,受問題格式和複雜度影響,尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

這項研究回顧了ChatGPT在醫學執照考試的表現,分析了2022年1月到2024年3月間的45項研究。結果顯示,GPT-4的準確率達81%,優於GPT-3.5的58%。GPT-4在29項考試中通過26項,並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現,但對GPT-4無影響。兩者在問題類型上表現不同,GPT-3.5在短文本問題上較佳,而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力,但也指出準確性不一致及各國知識差異的挑戰,旨在提供教育者和政策制定者相關資訊。 PubMed DOI

這項研究評估了ChatGPT在歐洲泌尿學會的考試表現,特別是版本3.5和4。分析了2017至2022年的多選題,結果顯示ChatGPT-4在所有考試中表現優於3.5,且每次考試都達到及格分數(≥60%)。不過,ChatGPT-4在某些子主題如尿失禁和移植的表現有所下降。整體來看,研究指出ChatGPT-4能有效回答複雜醫學問題,但仍需人類驗證其回應在醫療環境中的可靠性。 PubMed DOI

這項研究評估了ChatGPT在中國國家醫學執照考試中的表現,特別是GPT-3.5和GPT-4.0版本。研究發現,GPT-4.0的及格率為72.7%,明顯高於GPT-3.5的54%。此外,GPT-4.0的回答變異性較低,且在15個醫學子專科中有14個超過準確性門檻,顯示其在醫學教育和臨床實踐中的潛在應用價值。總體而言,GPT-4.0在準確性和一致性上表現更佳,值得進一步探索。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

這項研究評估了ChatGPT模型(ChatGPT-3.5和GPT-4)在醫學、藥學、牙醫學和護理學的健康執照考試表現。分析了23項研究後發現,ChatGPT-3.5的準確率介於36%到77%,而GPT-4則在64.4%到100%之間,整體準確率為70.1%。GPT-4的表現優於ChatGPT-3.5,藥學的準確率最高,其次是醫學、牙醫學和護理學。研究指出問題集範圍狹窄及研究間變異性大,建議未來需進一步研究以擴展問題類型及提升AI模型。 PubMed DOI