Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考試。 medRxiv 2024-07-29

這項研究評估了四個大型語言模型（LLMs）的表現，包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題，結果顯示 GPT-4o 的正確回答中位數為 63.1%，優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳，但在醫學影像解讀方面仍需改進。 PubMed DOI

Advancing Medical Education: Performance of Generative Artificial Intelligence Models on Otolaryngology Board Preparation Questions With Image Analysis Insights.
推進醫學教育：生成式人工智慧模型在耳鼻喉科考試準備問題上的表現及影像分析見解。 Cureus 2024-08-12

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現，分析了1,077道文字題和60道圖片題。結果顯示，GPT-4的表現最佳，得分78.7%，而ChatGPT和Bard分別為55.3%和61.7%（p<0.001）。所有模型在簡單問題上表現較好，GPT-4在各子專科得分也較高，僅過敏科差異不顯著。雖然GPT-4表現良好，但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

Evaluating the Effectiveness of advanced large language models in medical Knowledge: A Comparative study using Japanese national medical examination.
評估先進大型語言模型在醫學知識中的有效性：使用日本國家醫學考試的比較研究。 Int J Med Inform 2024-10-29

這項研究評估了先進語言模型（LLMs）在醫學知識的準確性，特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus，並使用日本國家醫學考試作為評估工具。研究發現，GPT-4o在整體準確率上達到89.2%，在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題，且在「消化內科與肝臟病學」的表現最差。研究顯示，出版數量與模型表現正相關，強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考題。 J Nucl Cardiol 2024-12-01

這項研究評估了四個大型語言模型（LLMs），包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考題進行測試。結果顯示，GPT-4o 的正確回答中位數為 63.1%，表現最佳，其次是 GPT-4 Turbo（60.7%）、GPT-4（56.8%）和 Gemini（40.5%）。雖然 GPT-4o 在文字題上表現優異，但在醫學影像解讀方面仍需改進。研究建議這些模型可在臨床環境中協助醫生，特別是處理文字相關問題時。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Quality assurance and validity of AI-generated single best answer questions.
AI生成的單一最佳答案問題的質量保證與有效性。 BMC Med Educ 2025-02-26

最近生成式人工智慧（AI）在醫學教育上有了新進展，特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題，經專家評估後，69%的題目經小幅修改後可用於考試。結果顯示，AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題，但仍需進行質量把關，為醫學教育提供了新的評估資源。 PubMed DOI

While GPT-3.5 is unable to pass the Physician Licensing Exam in Taiwan, GPT-4 successfully meets the criteria.
雖然 GPT-3.5 無法通過台灣的醫師執照考試，但 GPT-4 成功符合標準。 J Chin Med Assoc 2025-03-14

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答台灣醫師執照考試醫學問題的表現，特別關注繁體中文的能力。結果顯示，ChatGPT-3.5在基礎醫學科學的準確率為67.7%，臨床醫學為53.2%；而ChatGPT-4的表現明顯優於前者，準確率分別達到91.9%和90.7%。雖然問題類型對準確率影響不大，但ChatGPT-4在所有科目中均表現良好，顯示AI在醫學教育中的潛力，實施時仍需謹慎考量不同專業的變異性。 PubMed DOI

Generative AI vs. human expertise: a comparative analysis of case-based rational pharmacotherapy question generation.
生成式人工智慧與人類專業知識：基於案例的合理藥物治療問題生成的比較分析。 Eur J Clin Pharmacol 2025-04-09

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示，這些模型生成了60個問題，並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題，結果顯示AI問題的正確率與專家問題相當，且AI生成問題的準備效率顯著提升。然而，仍有19個問題被認為無法使用，顯示專家審查的重要性。結合AI效率與專家驗證的方式，可能是改善醫學教育的最佳策略。 PubMed DOI

Evaluating the performance of GPT-3.5, GPT-4, and GPT-4o in the Chinese National Medical Licensing Examination.
GPT-3.5、GPT-4 與 GPT-4o 在中國國家醫師執照考試中的表現評估 Sci Rep 2025-04-24

這項研究發現，GPT-4o在中國醫師執照考試的表現最好，正確率明顯高於GPT-4和GPT-3.5，尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強，未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

原始文章

站上相關主題文章列表