Large Language Models Take on Cardiothoracic Surgery: A Comparative Analysis of the Performance of Four Models on American Board of Thoracic Surgery Exam Questions in 2023.
大型語言模型在心胸外科的應用:2023年四個模型在美國胸外科醫學會考試問題上的表現比較分析。
Cureus 2024-08-22
Comprehensive analysis of the performance of GPT-3.5 and GPT-4 on the American Urological Association self-assessment study program exams from 2012-2023.
2012年至2023年美國泌尿學會自我評估研究計畫考試中GPT-3.5和GPT-4表現的全面分析。
Can Urol Assoc J 2024-02-21
The performance of large language models in intercollegiate Membership of the Royal College of Surgeons examination.
大型語言模型在皇家外科醫師學院聯考中的表現。
Ann R Coll Surg Engl 2024-03-06
Comparing the Performance of Popular Large Language Models on the National Board of Medical Examiners Sample Questions.
比較流行的大型語言模型在國家醫學考試委員會樣本問題上的表現。
Cureus 2024-04-12
Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力:大型語言模型挑戰考試準備考試。
medRxiv 2024-07-29
Advancing Medical Education: Performance of Generative Artificial Intelligence Models on Otolaryngology Board Preparation Questions With Image Analysis Insights.
推進醫學教育:生成式人工智慧模型在耳鼻喉科考試準備問題上的表現及影像分析見解。
Cureus 2024-08-12
這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。
PubMedDOI
Performance of Publicly Available Large Language Models on Internal Medicine Board-style Questions.
公開可用的大型語言模型在內科醫學考試風格問題上的表現。
PLOS Digit Health 2024-09-17