Assessing AI efficacy in medical knowledge tests: A study using Taiwan's internal medicine exam questions from 2020 to 2023.
評估人工智慧在醫學知識測試中的效能:以2020至2023年台灣內科考試題目為例。
Digit Health 2024-10-21
Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力:大型語言模型挑戰考試準備考試。
medRxiv 2024-07-29
Advancing Medical Education: Performance of Generative Artificial Intelligence Models on Otolaryngology Board Preparation Questions With Image Analysis Insights.
推進醫學教育:生成式人工智慧模型在耳鼻喉科考試準備問題上的表現及影像分析見解。
Cureus 2024-08-12
這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。
PubMedDOI
Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination.
評估先進大型語言模型在醫學知識中的有效性:使用日本國家醫學考試的比較研究。
Int J Med Inform 2024-10-29
Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力:大型語言模型挑戰考試準備考題。
J Nucl Cardiol 2024-12-01
Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響:前瞻性比較分析。
JMIR Med Educ 2025-01-17
Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展:評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。
Cureus 2025-01-24
While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試,但 GPT-4 成功符合標準。
J Chin Med Assoc 2025-03-14
Generative AI vs. human expertise: a comparative analysis of case-based rational pharmacotherapy question generation.
生成式人工智慧與人類專業知識:基於案例的合理藥物治療問題生成的比較分析。
Eur J Clin Pharmacol 2025-04-09
這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示,這些模型生成了60個問題,並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題,結果顯示AI問題的正確率與專家問題相當,且AI生成問題的準備效率顯著提升。然而,仍有19個問題被認為無法使用,顯示專家審查的重要性。結合AI效率與專家驗證的方式,可能是改善醫學教育的最佳策略。
PubMedDOI
Evaluating the performance of GPT-3.5, GPT-4, and GPT-4o in the Chinese National Medical Licensing Examination.
GPT-3.5、GPT-4 與 GPT-4o 在中國國家醫師執照考試中的表現評估
Sci Rep 2025-04-24