Is ChatGPT 'ready' to be a learning tool for medical undergraduates and will it perform equally in different subjects? Comparative study of ChatGPT performance in tutorial and case-based learning questions in physiology and biochemistry.
ChatGPT 在醫學學士學位課程中作為學習工具是否已經「準備就緒」，並且它在不同科目中的表現是否相同？在生理學和生物化學教學和案例學習問題中，ChatGPT 的表現進行比較研究。 Med Teach 2024-02-13

研究比較了ChatGPT在醫學本科生學習中的表現，發現GPT-3.5在生理學基礎問題上表現較好，但在臨床應用方面有不足。生物化學部分整體表現較差，解釋和準確性有待提升。GPT-4在兩科中表現較佳。教育工作者和學生需了解生成式AI的優勢和限制，才能有效運用於教學。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Results and implications for generative AI in a large introductory biomedical and health informatics course.
大型生物醫學與健康資訊學入門課程中生成式 AI 的結果與影響。 NPJ Digit Med 2024-09-13

這項研究評估了六個大型語言模型（LLM）的表現，並與生物醫學及健康資訊學課程學生的知識評估分數進行比較。研究涵蓋139名學生，包括研究生、繼續教育學生和醫學生，他們回答了多選題和期末考。結果顯示，這些LLM的得分介於學生的第50到75百分位之間，表現相當不錯。這引發了對高等教育中學生評估方法的思考，特別是在在線課程中，因為LLM的能力可能會挑戰傳統的評估方式。 PubMed DOI

Human versus Artificial Intelligence: ChatGPT-4 Outperforming Bing, Bard, ChatGPT-3.5 and Humans in Clinical Chemistry Multiple-Choice Questions.
人類與人工智慧：ChatGPT-4 在臨床化學多選題中超越 Bing、Bard、ChatGPT-3.5 及人類。 Adv Med Educ Pract 2024-09-25

這項研究比較了AI聊天機器人（如ChatGPT-4、Bing和Bard）與醫學研究生在臨床化學多選題的表現。結果顯示，ChatGPT-4的平均得分為0.90，超過學生的0.68，其他AI的得分分別為0.77、0.73和0.67。研究指出，AI在記憶和理解的表現較佳，但在應用和分析上則較弱。雖然ChatGPT-4表現優秀，但也引發了對學術誠信及多選題使用的擔憂，值得重新思考其在高等教育中的適用性。 PubMed DOI

Using large language models (ChatGPT, Copilot, PaLM, Bard, and Gemini) in Gross Anatomy course: Comparative analysis.
在大體解剖課程中使用大型語言模型（ChatGPT、Copilot、PaLM、Bard 和 Gemini）：比較分析。 Clin Anat 2024-11-22

這項研究評估了六個生成式人工智慧大型語言模型（LLMs）在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示，ChatGPT-4的準確率最高，達60.5%，其次是Copilot（42.0%）和ChatGPT-3.5（41.0%）。雖然這些模型尚未能完全取代解剖學教育者，但它們在醫學教育中仍具備實用價值。 PubMed DOI

Claude, ChatGPT, Copilot, and Gemini Performance versus Students in Different Topics of Neuroscience.
Claude、ChatGPT、Copilot 和 Gemini 在不同神經科學主題上與學生的表現比較。 Adv Physiol Educ 2025-01-17

這項研究比較了多種AI聊天機器人在醫學神經科學課程的多選題表現，並與醫學生進行對照。結果顯示，這些聊天機器人平均正確率為67.2%，低於學生的74.6%。其中，Claude和GPT-4表現最佳，準確率分別為83%和81.7%，超過學生平均分數。研究還發現，神經細胞學和胚胎學的準確率較高，而腦幹和小腦則較低。整體而言，Claude和GPT-4在醫學神經科學的測驗中展現出優於一般醫學生的能力，顯示AI在醫學教育中的潛力。 PubMed DOI

Benchmarking LLM chatbots' oncological knowledge with the Turkish Society of Medical Oncology's annual board examination questions.
以土耳其醫學腫瘤學會年度考試題目為基準，評估大型語言模型聊天機器人的腫瘤學知識。 BMC Cancer 2025-02-05

這項研究評估了四個大型語言模型（LLMs）在腫瘤學知識的表現，使用土耳其醫學腫瘤學會的考試問題。測試的模型包括Claude 3.5 Sonnet、ChatGPT 4o、Llama-3和Gemini 1.5，共分析790道選擇題。Claude 3.5 Sonnet表現最佳，所有考試通過，平均得分77.6%；ChatGPT 4o通過七場考試，得分67.8%。Llama-3和Gemini 1.5表現較差，得分均低於50%。研究顯示，這些模型需定期更新，以保持腫瘤學教育的相關性。總體而言，先進的LLMs在該領域有潛力，但仍需持續改進。 PubMed DOI

Assessment of large language models in medical quizzes for clinical chemistry and laboratory management: implications and applications for healthcare artificial intelligence.
大型語言模型在臨床化學和實驗室管理醫學測驗中的評估：對醫療人工智慧的影響與應用。 Scand J Clin Lab Invest 2025-02-19

這項研究評估了九個大型語言模型（LLMs）在醫學領域的表現，特別是在臨床化學和實驗室管理方面。使用零-shot提示法測試109個臨床測驗，結果顯示GPT-4o的準確率最高，達81.7%，其次是GPT-4 Turbo（76.1%）和Claude 3 Opus（74.3%）。這些模型在數字和計算任務上表現優異，顯示出它們能有效運用現有知識協助醫療專業人員進行決策，未來有潛力成為醫療輔助工具。 PubMed DOI

Chat GPT, Gemini or Meta AI: A comparison of AI platforms as a tool for answering higher-order questions in microbiology.
Chat GPT、Gemini 或 Meta AI：作為回答微生物學高階問題的 AI 平台比較。 J Postgrad Med 2025-03-20

這項研究評估了三個大型語言模型（LLMs）—ChatGPT、Gemini 和 Meta AI—在微生物學課程高階問題的表現。研究從大學考試中彙編了60個問題，並由三位教職員評估AI的回應。結果顯示，ChatGPT在大多數能力上優於其他模型，特別是在MI 2、3、5、6、7和8方面；Gemini在MI 1和4方面表現較好，而Meta AI的得分最低。質性評估指出，ChatGPT的回應更詳細，Gemini有時缺少關鍵點，Meta AI則較為簡潔。總體來看，ChatGPT和Gemini在醫學微生物學的複雜問題上表現優於Meta AI。這是首次在微生物學教育中比較這三個LLMs。 PubMed DOI

Generative AI vs. human expertise: a comparative analysis of case-based rational pharmacotherapy question generation.
生成式人工智慧與人類專業知識：基於案例的合理藥物治療問題生成的比較分析。 Eur J Clin Pharmacol 2025-04-09

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示，這些模型生成了60個問題，並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題，結果顯示AI問題的正確率與專家問題相當，且AI生成問題的準備效率顯著提升。然而，仍有19個問題被認為無法使用，顯示專家審查的重要性。結合AI效率與專家驗證的方式，可能是改善醫學教育的最佳策略。 PubMed DOI

原始文章

站上相關主題文章列表