How do large language models answer breast cancer quiz questions? A comparative study of GPT-3.5, GPT-4 and Google Gemini.
大型語言模型如何回答乳腺癌測驗問題？GPT-3.5、GPT-4 和 Google Gemini 的比較研究。 Radiol Med 2024-08-14

這項研究評估了三個大型語言模型（LLMs）—GPT-3.5、GPT-4 和 Google Gemini（Bard）在回答60道乳腺癌護理相關的多選題的表現。結果顯示，GPT-4的準確率最高，正確回答了95%的問題，接著是GPT-3.5的90%和Google Gemini的80%。研究還發現，來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異，顯示LLMs在乳腺癌護理方面有良好的應用潛力，但仍需進一步訓練以提升表現。 PubMed DOI

LLM-based automatic short answer grading in undergraduate medical education.
基於 LLM 的本科醫學教育自動短答案評分。 BMC Med Educ 2024-09-28

這項研究探討大型語言模型（LLMs）在醫學教育中自動短答案評分的應用，使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括：GPT-4的分數低於人類評估者，但假陽性率較低；Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性，且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱，LLM可能存在偏見風險，仍需人類監督。整體而言，LLM在醫學教育評估中具潛力，但人類參與仍不可或缺。 PubMed DOI

Large language models (LLMs) in radiology exams for medical students: Performance and consequences.
放射科考試中大型語言模型（LLMs）對醫學生的影響與表現。 Rofo 2024-11-04

這項研究分析了大型語言模型（LLMs），特別是OpenAI的GPT-3.5和GPT-4，在醫學生放射學考試中的表現。使用151道選擇題，結果顯示GPT-3.5的正確率為67.6%，而GPT-4則達到88.1%（p<0.001），表現明顯優於前者。GPT-4在各類問題上都表現良好，顯示其在醫學教育中的潛力。不過，研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看，LLMs在放射學教育上有提升的可能性。 PubMed DOI

Evaluating Bard Gemini Pro and GPT-4 Vision Against Student Performance in Medical Visual Question Answering: Comparative Case Study.
評估 Bard Gemini Pro 和 GPT-4 Vision 在醫學視覺問題回答中的學生表現：比較案例研究。 JMIR Form Res 2024-12-23

這項研究評估了大型語言模型（LLMs），特別是OpenAI的GPT-4 1106和Google的Bard Gemini Pro，在影像醫學問題上的表現。分析1,070個來自AMBOSS平台的問題後，發現GPT-4 1106的準確率為56.9%，高於Bard的44.6%。不過，GPT-4 1106未回答的問題比例較高，達16.1%。若只看已回答的問題，GPT-4 1106的準確率提升至67.8%。兩者在德語表現優於英語，學生的準確率達94.5%，顯著超越這兩個AI模型。研究顯示，這些LLMs在醫學教育中有潛力，但仍需優化以應對多語言環境的挑戰。 PubMed DOI

Quality assurance and validity of AI-generated single best answer questions.
AI生成的單一最佳答案問題的質量保證與有效性。 BMC Med Educ 2025-02-26

最近生成式人工智慧（AI）在醫學教育上有了新進展，特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題，經專家評估後，69%的題目經小幅修改後可用於考試。結果顯示，AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題，但仍需進行質量把關，為醫學教育提供了新的評估資源。 PubMed DOI

Evaluating the Accuracy and Reliability of Large Language Models (ChatGPT, Claude, DeepSeek, Gemini, Grok, and Le Chat) in Answering Item-Analyzed Multiple-Choice Questions on Blood Physiology.
大型語言模型（ChatGPT、Claude、DeepSeek、Gemini、Grok 及 Le Chat）在回答血液生理學題項分析選擇題時之準確性與可靠性評估 Cureus 2025-05-09

這項研究比較六款免費大型語言模型在40題血液生理學選擇題的表現，結果以Claude最優（正確率95%），DeepSeek和Grok次之（93%），ChatGPT（90%）、Gemini（88%），Le Chat最低（70%）。題目難度和品質對結果沒明顯影響。整體來說，這些AI工具，尤其是Claude、DeepSeek和Grok，能當作醫學教育的輔助，但還是建議搭配傳統教學和專家指導使用。 PubMed DOI

Can American Board of Surgery in Training Examinations be passed by Large Language Models? Comparative assessment of Gemini, Copilot, and ChatGPT.
大型語言模型能通過美國外科醫學會住院醫師訓練考試嗎？Gemini、Copilot 與 ChatGPT 的比較性評估 Am Surg 2025-05-12

這份研究比較了ChatGPT-4、Copilot和Gemini三款大型語言模型在美國外科住院醫師考題上的表現。結果顯示，ChatGPT和Copilot的正確率都接近八成，表現差不多；但Gemini的正確率只有五成多，尤其在定義題和臨床案例題上更弱。總結來說，Gemini的準確度明顯落後。 PubMed DOI

GPT-4 versus human authors in clinically complex MCQ creation: A blinded analysis of item quality.
GPT-4 與人類作者在臨床複雜選擇題命題上的比較：題目品質的盲性分析 Med Teach 2025-05-29

研究發現，GPT-4產生的醫學選擇題品質大致接近專家水準，但錯誤率較高，像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目，仍需專家審核把關，確保正確性與品質。 PubMed DOI

Chatbots' Role in Generating Single Best Answer Questions for Undergraduate Medical Student Assessment: Comparative Analysis.
Chatbots 在產生醫學生單一最佳答案題目中的角色：比較分析 JMIR Med Educ 2025-05-30

這項研究發現，不同AI聊天機器人在幫醫學生出單一最佳答案題目時，品質和一致性都有差異，沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查，無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

A comparison of the psychometric properties of GPT-4 versus human novice and expert authors of clinically complex MCQs in a mock examination of Australian medical students.
GPT-4 與人類新手及專家作者在澳洲醫學生模擬考試中臨床複雜選擇題心理計量特性的比較 Med Teach 2025-06-12

研究發現，AI產生的醫學選擇題在難度和鑑別度上跟人類寫的差不多，整體品質也很高。不過，AI出的干擾選項效果比新手差一點，但跟專家差不多。總結來說，AI能出不錯的題目，但還是需要人類幫忙審查，才能讓選項更有品質。 PubMed DOI

原始文章

站上相關主題文章列表