Claude, ChatGPT, Copilot, and Gemini Performance versus Students in Different Topics of Neuroscience.
Claude、ChatGPT、Copilot 和 Gemini 在不同神經科學主題上與學生的表現比較。 Adv Physiol Educ 2025-01-17

這項研究比較了多種AI聊天機器人在醫學神經科學課程的多選題表現，並與醫學生進行對照。結果顯示，這些聊天機器人平均正確率為67.2%，低於學生的74.6%。其中，Claude和GPT-4表現最佳，準確率分別為83%和81.7%，超過學生平均分數。研究還發現，神經細胞學和胚胎學的準確率較高，而腦幹和小腦則較低。整體而言，Claude和GPT-4在醫學神經科學的測驗中展現出優於一般醫學生的能力，顯示AI在醫學教育中的潛力。 PubMed DOI

Advancements in AI Medical Education: Assessing ChatGPT's Performance on USMLE-Style Questions Across Topics and Difficulty Levels.
AI 醫學教育的進展：評估 ChatGPT 在各主題和難度級別的 USMLE 風格問題上的表現。 Cureus 2025-01-24

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試（USMLE）風格問題上的表現，使用了900道選擇題。結果顯示，ChatGPT-4的準確率為71.33%，明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%，且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同，但問題的複雜性可能影響了表現變異性。總體而言，ChatGPT-4在醫學教育中展現出潛力，甚至在某些方面超越人類。 PubMed DOI

Performance assessment of ChatGPT 4, ChatGPT 3.5, Gemini Advanced Pro 1.5 and Bard 2.0 to problem solving in pathology in French language.
法語病理學問題解決中 ChatGPT 4、ChatGPT 3.5、Gemini Advanced Pro 1.5 和 Bard 2.0 的性能評估。 Digit Health 2025-02-03

這項研究評估了多種人工智慧聊天機器人（如ChatGPT、Bard和Gemini）在醫學生病理學考試中的表現，考題範圍涵蓋2018至2022年。測試70道題目後發現，較新的聊天機器人在多選題上表現優於學生，但在高難度問題上，學生的表現則更佳。此外，聊天機器人的得分與學生的不同意見率有關，顯示提示設計影響回應。總體來看，雖然聊天機器人在複雜推理上表現中等，但也有生成不正確資訊的問題，顯示醫學教育中使用自然語言處理的挑戰。 PubMed DOI

AI versus human-generated multiple-choice questions for medical education: a cohort study in a high-stakes examination.
醫學教育中 AI 與人類生成的多選題比較：一項高風險考試的隊列研究。 BMC Med Educ 2025-02-08

這項研究評估了ChatGPT-4o在生成高品質多選題（MCQs）的效果，並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生，回答了兩組各100題的MCQs。主要發現包括：AI生成的題目較容易，且兩組題目的區分能力相似，但AI題目中有更多不準確及不適當的內容，且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。結論指出，雖然ChatGPT-4o能有效生成MCQs，但在深度上仍不足，強調人類審核的重要性，結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

Quality assurance and validity of AI-generated single best answer questions.
AI生成的單一最佳答案問題的質量保證與有效性。 BMC Med Educ 2025-02-26

最近生成式人工智慧（AI）在醫學教育上有了新進展，特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題，經專家評估後，69%的題目經小幅修改後可用於考試。結果顯示，AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題，但仍需進行質量把關，為醫學教育提供了新的評估資源。 PubMed DOI

Evaluating the value of AI-generated questions for USMLE step 1 preparation: A study using ChatGPT-3.5.
評估 AI 生成問題在 USMLE Step 1 準備中的價值：使用 ChatGPT-3.5 的研究。 Med Teach 2025-03-27

學生們越來越依賴人工智慧（AI）工具，如ChatGPT，來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題，這些題目模仿美國醫學執照考試（USMLE）第一階段的格式。研究發現，83%的問題事實上是準確的，常見主題包括深靜脈血栓和心肌梗塞。研究建議，分開生成內容主題和問題可以提升多樣性。總體而言，ChatGPT-3.5能有效生成相關考題，但需謹慎提示以減少偏見，對醫學生準備USMLE考試有幫助。 PubMed DOI

AI-generated questions for urological competency assessment: a prospective educational study.
AI 生成的泌尿科能力評估試題：一項前瞻性教育研究 BMC Med Educ 2025-04-25

這項研究發現，用AI（像是ChatGPT和Gemini）產生的選擇題，經專家審核後，能有效評量醫學生在泌尿科實習期間的知識進步。AI題目內容正確，特別適合用於臨床情境的評量，但在分辨學生程度上還有侷限，高風險考試仍需專家審查。整體來說，AI題目很有潛力應用在醫學教育的形成性評量。 PubMed DOI

Answering Patterns in SBA Items: Students, GPT3.5, and Gemini.
SBA題目中的作答模式：學生、GPT3.5 與 Gemini Med Sci Educ 2025-05-12

這項研究發現，免費版GPT-3.5和Gemini在回答大一醫學選擇題時，常出現重複答題模式，且比學生更容易被干擾選項誤導，反覆犯同樣錯誤。整體來說，這些AI在技術性題目上的表現都不如受訓學生或專家，顯示醫學評量還是需要人類監督，也讓人質疑AI理解情境的能力。 PubMed DOI

The Role of Chatbots in Enquiry-Based Learning for Oral Health Students-An Exploratory Study.
聊天機器人在口腔健康學生探究式學習中的角色—一項初步研究 Eur J Dent Educ 2025-05-15

這項研究比較四款聊天機器人在口腔健康探究式學習的表現。結果發現，ChatGPT 3.5 最會出自我評量題，Microsoft Copilot 答題最準。不同機器人在不同主題和難度下表現不一，簡單題目答得比較好。整體來說，聊天機器人有潛力，但還沒辦法完全取代真人老師。 PubMed DOI

Battle of the Bots: Assessing the Ability of Four Large Language Models to Tackle Different Surgery Topics.
機器人大對決：評估四種大型語言模型處理不同外科主題的能力 Am Surg 2025-05-27

這項研究比較四款AI聊天機器人在外科選擇題的表現，發現Copilot表現最佳，ChatGPT次之，Bard和Medical Chat較弱。各專科表現有落差，尤其耳鼻喉科和腸胃科最明顯。所有AI在診斷題的表現都優於處置題，Bard差異最大。結果顯示AI在外科教育和臨床應用各有優缺點。 PubMed DOI

原始文章

站上相關主題文章列表