How Does ChatGPT Perform on the United States Medical Licensing Examination (USMLE)? The Implications of Large Language Models for Medical Education and Knowledge Assessment.
ChatGPT 在美國醫師執照考試（USMLE）上的表現如何？大型語言模型對醫學教育和知識評估的影響。 JMIR Med Educ 2024-02-27

研究發現ChatGPT在美國醫師執照考試Step 1和Step 2的表現介於42%到64.4%之間，比InstructGPT和GPT-3表現更好。雖然在較難的問題上表現較差，但仍可提供合理答案和內部問題資訊。研究建議ChatGPT可能成為醫學教育中有用的工具，因為它準確且有邏輯性。 PubMed DOI

ChatGPT-4: An assessment of an upgraded artificial intelligence chatbot in the United States Medical Licensing Examination.
ChatGPT-4：對美國醫師執照考試中升級的人工智慧聊天機器人的評估。 Med Teach 2024-02-27

ChatGPT-4在USMLE模擬試題上表現優異，Step 1答對率為88%，Step 2CK為86%，Step 3為90%。它對所有問題都有解釋，回答速度快。答對和答錯的問題長度相近，但正確答案較簡潔。ChatGPT-4在回答USMLE模擬試題方面有明顯進步，超越了之前的版本。 PubMed DOI

ChatGPT-4 Performance on USMLE Step 1 Style Questions and Its Implications for Medical Education: A Comparative Study Across Systems and Disciplines.
ChatGPT-4 在美國醫師執照考試Step 1類型問題上的表現及其對醫學教育的影響：跨系統和學科的比較研究。 Med Sci Educ 2024-03-22

研究指出OpenAI的ChatGPT-4在美國醫師執照考試STEP 1問題上表現優秀，回答正確率高達86%，超過60%及格分數，且在臨床領域也表現不錯。這個新版本改進許多，各主題展現熟練度，可當作醫學教育的互動學習工具。作者建議AI可提供即時解釋和針對學生需求的個別化指導，有助於提升臨床前階段學習成果。 PubMed DOI

In-depth analysis of ChatGPT's performance based on specific signaling words and phrases in the question stem of 2377 USMLE step 1 style questions.
對 2377 道 USMLE Step 1 風格問題中特定提示詞和短語的 ChatGPT 表現進行深入分析 Sci Rep 2024-06-12

研究評估了ChatGPT在Amboss問題庫的2,377個USMLE Step 1練習問題上的表現。整體準確率為55.8%，顯示問題難度與表現呈反向關係。在血清學問題上表現不錯，但心電圖相關內容表現較差，病理生理學更差。研究強調了進一步瞭解ChatGPT在醫學教育和考試中的能力和限制的重要性。 PubMed DOI

Can ChatGPT generate practice question explanations for medical students, a new faculty teaching tool?
作为一种新的教师教学工具，ChatGPT 能否为医学生生成练习题解析？ Med Teach 2024-06-20

研究發現，在醫學院環境中，ChatGPT在回答多重選擇題時表現不錯，但若答案不正確，解釋準確性會下降。ChatGPT可作為學習輔助工具，但需謹慎使用，建議教師審查和補充解釋以確保學習效果。若有錯誤答案，學生應主動向教師求證。 PubMed DOI

Appraisal of ChatGPT's Aptitude for Medical Education: Comparative Analysis With Third-Year Medical Students in a Pulmonology Examination.
ChatGPT 在醫學教育中的能力評估：與三年級醫學生在肺病學考試中的比較分析。 JMIR Med Educ 2024-07-23

這項研究評估了ChatGPT-3.5在肺病學考試中的表現，並與三年級醫學生進行比較。研究分為兩組：244名法語醫學生和ChatGPT，後者以無上下文（V1）和有上下文（V2）兩種格式測試。結果顯示，V1在放射學和胸外科表現佳，但在病理學和藥理學上不理想；V2則在所有類別中表現更準確，並在開放式問題上優於學生。V2通過考試的比例超過62.1%，而V1未能通過。總體而言，ChatGPT的表現與醫學生相似，受問題格式和複雜度影響，尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

A Comparative Analysis of ChatGPT and Medical Faculty Graduates in Medical Specialization Exams: Uncovering the Potential of Artificial Intelligence in Medical Education.
ChatGPT 與醫學院畢業生在醫學專業考試中的比較分析：揭示人工智慧在醫學教育中的潛力。 Cureus 2024-09-09

這項研究評估了ChatGPT在醫學專業考試中的表現，並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題，結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面，ChatGPT的表現相當優異，但在解剖學上則不如畢業生。研究指出，像ChatGPT這樣的AI模型能顯著提升醫學教育，提供互動支持和個性化學習，最終改善教育質量和學生成功率。 PubMed DOI

The performance of AI in medical examinations: an exploration of ChatGPT in ultrasound medical education.
AI 在醫學考試中的表現：探索 ChatGPT 在超聲醫學教育中的應用。 Front Med (Lausanne) 2024-11-20

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性，並探討其在超聲醫學教育中的應用潛力。共選取100道題目，包含70道單選題和30道多選題，涵蓋基礎知識、臨床知識、專業知識及實踐。測試結果顯示，ChatGPT 3.5版本在單選題準確率為35.7%，多選題30.0%；而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步，但仍未達及格標準，且在專業實踐方面表現不佳。儘管如此，ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

原始文章

站上相關主題文章列表