How Does ChatGPT Perform on the United States Medical Licensing Examination (USMLE)? The Implications of Large Language Models for Medical Education and Knowledge Assessment.
ChatGPT 在美國醫師執照考試（USMLE）上的表現如何？大型語言模型對醫學教育和知識評估的影響。 JMIR Med Educ 2024-02-27

研究發現ChatGPT在美國醫師執照考試Step 1和Step 2的表現介於42%到64.4%之間，比InstructGPT和GPT-3表現更好。雖然在較難的問題上表現較差，但仍可提供合理答案和內部問題資訊。研究建議ChatGPT可能成為醫學教育中有用的工具，因為它準確且有邏輯性。 PubMed DOI

Performance of ChatGPT on the Situational Judgement Test-A Professional Dilemmas-Based Examination for Doctors in the United Kingdom.
ChatGPT 在英國醫生專業困境情境判斷測驗的表現。 JMIR Med Educ 2023-08-24

ChatGPT參加了英國醫學生的情境判斷測驗，整體得分為76%，在良好醫學實踐方面表現不錯。然而，只有少數問題得滿分，可能表示其情境判斷有些缺陷或考題不夠一致。需要進一步研究，探討像ChatGPT這樣的語言模型在醫學教育中的應用，以提供更一致的專業精神和道德評估。 PubMed DOI

Comparing ChatGPT and GPT-4 performance in USMLE soft skill assessments.
在美國醫師執照考試中比較 ChatGPT 和 GPT-4 在軟技能評估中的表現。 Sci Rep 2023-11-21

研究比較AI模型ChatGPT和GPT-4在USMLE問題上的表現，發現GPT-4比ChatGPT更厲害，正確率高達90%，回答問題時更有自信，不需修改答案。相對地，ChatGPT只有62.5%的正確率，常需要修改答案。GPT-4的表現超越過去AMBOSS使用者，展現出對於溝通、倫理、同理心和專業精神等軟實力的潛力。 PubMed DOI

Assessing the Performance of ChatGPT in Medical Biochemistry Using Clinical Case Vignettes: Observational Study.
使用臨床案例小插曲評估 ChatGPT 在醫學生物化學中的表現：觀察性研究。 JMIR Med Educ 2023-11-24

ChatGPT因為能快速生成資訊和檢索數據而受到關注，甚至通過了USMLE考試，引發了對其在醫學教育中潛力的討論。一項研究評估了ChatGPT在醫學生物化學中的表現，使用臨床案例簡介。儘管對某些問題回答正確，但在複雜案例中，答案有差異。研究指出，由於不一致性，ChatGPT在醫學教育中或許不夠可靠。然而，研究有限制，如樣本量小，且使用特定版本的ChatGPT。研究強調在應用AI生成的數據於醫學前的驗證重要性。 PubMed DOI

Assessing the performance of ChatGPT in bioethics: a large language model's moral compass in medicine.
評估 ChatGPT 在生物倫理學中的表現：一個大型語言模型在醫學中的道德指南。 J Med Ethics 2024-02-02

研究評估了ChatGPT-3.5在回答生物倫理問題上對美國第三和第四年醫學生的表現。ChatGPT的準確率為59.6%，在某些生倫類別和專業領域表現較佳，但在知情同意問題上有困難。研究強調了有必要進一步研究醫學生對於人工智慧系統在生物倫理上的能力和限制。 PubMed DOI

Is ChatGPT 'ready' to be a learning tool for medical undergraduates and will it perform equally in different subjects? Comparative study of ChatGPT performance in tutorial and case-based learning questions in physiology and biochemistry.
ChatGPT 在醫學學士學位課程中作為學習工具是否已經「準備就緒」，並且它在不同科目中的表現是否相同？在生理學和生物化學教學和案例學習問題中，ChatGPT 的表現進行比較研究。 Med Teach 2024-02-13

研究比較了ChatGPT在醫學本科生學習中的表現，發現GPT-3.5在生理學基礎問題上表現較好，但在臨床應用方面有不足。生物化學部分整體表現較差，解釋和準確性有待提升。GPT-4在兩科中表現較佳。教育工作者和學生需了解生成式AI的優勢和限制，才能有效運用於教學。 PubMed DOI

Appraisal of ChatGPT's Aptitude for Medical Education: Comparative Analysis With Third-Year Medical Students in a Pulmonology Examination.
ChatGPT 在醫學教育中的能力評估：與三年級醫學生在肺病學考試中的比較分析。 JMIR Med Educ 2024-07-23

這項研究評估了ChatGPT-3.5在肺病學考試中的表現，並與三年級醫學生進行比較。研究分為兩組：244名法語醫學生和ChatGPT，後者以無上下文（V1）和有上下文（V2）兩種格式測試。結果顯示，V1在放射學和胸外科表現佳，但在病理學和藥理學上不理想；V2則在所有類別中表現更準確，並在開放式問題上優於學生。V2通過考試的比例超過62.1%，而V1未能通過。總體而言，ChatGPT的表現與醫學生相似，受問題格式和複雜度影響，尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

Performance of ChatGPT Across Different Versions in Medical Licensing Examinations Worldwide: Systematic Review and Meta-Analysis.
ChatGPT 在全球醫學執照考試中不同版本的表現：系統性回顧與統合分析。 J Med Internet Res 2024-07-25

這項研究回顧了ChatGPT在醫學執照考試的表現，分析了2022年1月到2024年3月間的45項研究。結果顯示，GPT-4的準確率達81%，優於GPT-3.5的58%。GPT-4在29項考試中通過26項，並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現，但對GPT-4無影響。兩者在問題類型上表現不同，GPT-3.5在短文本問題上較佳，而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力，但也指出準確性不一致及各國知識差異的挑戰，旨在提供教育者和政策制定者相關資訊。 PubMed DOI

Current Status of ChatGPT Use in Medical Education: Potentials, Challenges, and Strategies.
醫學教育中 ChatGPT 使用的現狀：潛力、挑戰與策略。 J Med Internet Res 2024-08-28

這篇論文探討了ChatGPT對醫學教育的影響，指出其潛在的好處與挑戰。自2022年11月推出以來，ChatGPT因能提供個性化學習和模擬臨床情境而受到重視，但也引發了對過度依賴、學術抄襲及資訊準確性的擔憂。為解決這些問題，論文建議加強意識形態教育、採用多樣化評估方法，並優化ChatGPT的訓練數據。此外，還探討了倫理問題，並建議建立相關立法與準則。總之，雖然ChatGPT在醫學教育上有潛力，但需謹慎應用以降低風險。 PubMed DOI

A Comparative Analysis of ChatGPT and Medical Faculty Graduates in Medical Specialization Exams: Uncovering the Potential of Artificial Intelligence in Medical Education.
ChatGPT 與醫學院畢業生在醫學專業考試中的比較分析：揭示人工智慧在醫學教育中的潛力。 Cureus 2024-09-09

這項研究評估了ChatGPT在醫學專業考試中的表現，並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題，結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面，ChatGPT的表現相當優異，但在解剖學上則不如畢業生。研究指出，像ChatGPT這樣的AI模型能顯著提升醫學教育，提供互動支持和個性化學習，最終改善教育質量和學生成功率。 PubMed DOI

原始文章

站上相關主題文章列表