Performance of Publicly Available Large Language Models on Internal Medicine Board-style Questions.
公開可用的大型語言模型在內科醫學考試風格問題上的表現。
PLOS Digit Health 2024-09-17
Performance of large language models at the MRCS Part A: a tool for medical education?
大型語言模型在 MRCS Part A 考試的表現:醫學教育的工具?
Ann R Coll Surg Engl 2023-12-01
研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀,回答更有深度。兩者一致性高,對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識,但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確,在醫療領域有重要價值需受到監督。
PubMedDOI
Evaluation of Large language model performance on the Multi-Specialty Recruitment Assessment (MSRA) exam.
大型語言模型在多專科招聘評估(MSRA)考試上的表現評估。
Comput Biol Med 2024-02-06
Comparing the Performance of Popular Large Language Models on the National Board of Medical Examiners Sample Questions.
比較流行的大型語言模型在國家醫學考試委員會樣本問題上的表現。
Cureus 2024-04-12
Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力:大型語言模型挑戰考試準備考試。
medRxiv 2024-07-29
Advancing Medical Education: Performance of Generative Artificial Intelligence Models on Otolaryngology Board Preparation Questions With Image Analysis Insights.
推進醫學教育:生成式人工智慧模型在耳鼻喉科考試準備問題上的表現及影像分析見解。
Cureus 2024-08-12
這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。
PubMedDOI
AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制:一項比較性能研究。
Sci Rep 2024-08-14
Large Language Models Take on Cardiothoracic Surgery: A Comparative Analysis of the Performance of Four Models on American Board of Thoracic Surgery Exam Questions in 2023.
大型語言模型在心胸外科的應用:2023年四個模型在美國胸外科醫學會考試問題上的表現比較分析。
Cureus 2024-08-22