Performance of Generative Large Language Models on Ophthalmology Board-Style Questions.
生成式大型語言模型在眼科醫學委員會風格問題上的表現。 Am J Ophthalmol 2023-12-14

研究比較三個大型語言模型在眼科醫學上的表現，發現ChatGPT-4.0和Bing Chat接近人類表現，但ChatGPT-3.5稍微落後。ChatGPT-4.0在某些問題上表現優秀，但在圖像解釋方面較弱。Bing Chat在圖像解釋和多步推理上有挑戰。ChatGPT-3.5在幻覺和非邏輯推理方面表現最好。研究指出，語言模型在醫學問題上有潛力，但需要改進以減少錯誤。 PubMed DOI

Performance of large language models at the MRCS Part A: a tool for medical education?
大型語言模型在 MRCS Part A 考試的表現：醫學教育的工具？ Ann R Coll Surg Engl 2023-12-01

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀，回答更有深度。兩者一致性高，對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識，但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確，在醫療領域有重要價值需受到監督。 PubMed DOI

Evaluation of Large language model performance on the Multi-Specialty Recruitment Assessment (MSRA) exam.
大型語言模型在多專科招聘評估（MSRA）考試上的表現評估。 Comput Biol Med 2024-02-06

研究發現在醫學教育中使用大型語言模型（LLMs）回答多重選擇問題，Bing Chat效果最好，甚至超越人類。Llama 2表現較差，Google Bard和ChatGPT-3.5則接近人類水準。建議免費提供的LLMs在醫學考試中有潛力，特別是Bing Chat。研究也提到透過訓練可提升LLMs在醫學領域的應用。總結來說，這研究對LLMs在醫學教育和評估中的應用提供了有價值的見解。 PubMed DOI

Comparing the Performance of Popular Large Language Models on the National Board of Medical Examiners Sample Questions.
比較流行的大型語言模型在國家醫學考試委員會樣本問題上的表現。 Cureus 2024-04-12

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現，結果發現GPT-4得分最高，達100%，Claude次之，接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力，呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

Large Language Models as Tools to Generate Radiology Board-Style Multiple-Choice Questions.
利用大型語言模型生成放射學委員會風格的多重選擇題。 Acad Radiol 2024-07-16

使用Llama 2和GPT-4創建放射學教育的多重選擇題，供放射科醫師評估。GPT-4在清晰度、相關性、難度、干擾項質量和答案準確性方面表現優異。這些先進的語言模型有助於提升放射學考試準備資料，擴大問題庫。 PubMed DOI

Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力：大型語言模型挑戰考試準備考試。 medRxiv 2024-07-29

這項研究評估了四個大型語言模型（LLMs）的表現，包括 GPT-4、GPT-4 Turbo、GPT-4omni（GPT-4o）和 Gemini，針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題，結果顯示 GPT-4o 的正確回答中位數為 63.1%，優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳，但在醫學影像解讀方面仍需改進。 PubMed DOI

Advancing Medical Education: Performance of Generative Artificial Intelligence Models on Otolaryngology Board Preparation Questions With Image Analysis Insights.
推進醫學教育：生成式人工智慧模型在耳鼻喉科考試準備問題上的表現及影像分析見解。 Cureus 2024-08-12

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現，分析了1,077道文字題和60道圖片題。結果顯示，GPT-4的表現最佳，得分78.7%，而ChatGPT和Bard分別為55.3%和61.7%（p<0.001）。所有模型在簡單問題上表現較好，GPT-4在各子專科得分也較高，僅過敏科差異不顯著。雖然GPT-4表現良好，但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Large Language Models Take on Cardiothoracic Surgery: A Comparative Analysis of the Performance of Four Models on American Board of Thoracic Surgery Exam Questions in 2023.
大型語言模型在心胸外科的應用：2023年四個模型在美國胸外科醫學會考試問題上的表現比較分析。 Cureus 2024-08-22

這項研究評估了四個大型語言模型（LLMs）在美國胸外科醫學會的胸外科自我教育與自我評估（SESATS）XIII題庫上的表現。測試的模型包括GPT-3.5、GPT-4、Med-PaLM 2和Claude 2。結果顯示，GPT-4的正確回答比例達87.0%，明顯優於GPT-3.5的51.8%。GPT-4在各子專科的準確率介於70.0%到90.0%之間，顯示出LLMs在外科教育和訓練方面的潛力，對醫學教育和病人護理有美好的前景。 PubMed DOI

Performance of Language Models on the Family Medicine In-Training Exam.
家庭醫學在職考試中語言模型的表現。 Fam Med 2024-08-29

這項研究評估了三個大型語言模型（LLMs）在家庭醫學住院醫師訓練考試中的表現，使用了2022年的193道選擇題。結果顯示，ChatGPT 4.0 獲得167分（86.5%），標準化分數730，顯示出100%通過專科考試的機會。相比之下，ChatGPT 3.5 和 Google Bard 的得分較低，分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示，ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

原始文章

站上相關主題文章列表