Large Language Models in Medical Education: Comparing ChatGPT- to Human-Generated Exam Questions.
醫學教育中的大型語言模型：比較 ChatGPT 與人類生成的考試問題。 Acad Med 2024-01-02

製作醫學考題很費時，但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助，但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現，學生在兩種問題來源下表現沒有太大差異，但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

Large Language Models as Tools to Generate Radiology Board-Style Multiple-Choice Questions.
利用大型語言模型生成放射學委員會風格的多重選擇題。 Acad Radiol 2024-07-16

使用Llama 2和GPT-4創建放射學教育的多重選擇題，供放射科醫師評估。GPT-4在清晰度、相關性、難度、干擾項質量和答案準確性方面表現優異。這些先進的語言模型有助於提升放射學考試準備資料，擴大問題庫。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Performance of Publicly Available Large Language Models on Internal Medicine Board-style Questions.
公開可用的大型語言模型在內科醫學考試風格問題上的表現。 PLOS Digit Health 2024-09-17

持續的研究正在評估大型語言模型（LLMs）在內科考試中的表現，特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現，並使用檢索增強生成的方法進行測試。結果顯示，GPT-4.0的得分介於77.5%到80.7%之間，優於其他模型及人類受試者，尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性，顯示這種方法在醫學領域的潛力。 PubMed DOI

Efficacy of large language models and their potential in Obstetrics and Gynecology education.
大型語言模型的效能及其在婦產科教育中的潛力。 Obstet Gynecol Sci 2024-10-02

這項研究分析了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在婦產科教育中的表現。研究比較了2020至2023年間116道考題的得分，結果顯示GPT-4的平均得分為79.31，與住院醫師的得分相當，顯示其表現優異。特別是在婦產科問題上，GPT-4的得分高達90.22，顯示其在該領域的強大能力。研究強調，雖然LLMs如GPT-4展現出潛力，但仍需注意其局限性，應作為人類專業知識的輔助工具。 PubMed DOI

Large language models can help with biostatistics and coding needed in radiology research.
大型語言模型可以協助放射學研究中所需的生物統計學和編碼。 Acad Radiol 2024-10-15

這項研究探討了大型語言模型（LLMs），如ChatGPT-4o、ChatGPT-3.5和Google Gemini，在輔助放射學研究中的效能。進行了兩個實驗： 1. **生物統計學與數據視覺化**：測試LLMs在建議生物統計檢定和生成R程式碼的能力。ChatGPT-4o表現最佳，正確回答7個問題，且生成的程式碼錯誤較少。 2. **深度學習**：評估這些模型在生成影像分類模型的Python程式碼的能力。ChatGPT-4o和Gemini都能生成初始程式碼，並透過互動修正錯誤。總體而言，LLMs對放射學研究有幫助，但使用者需驗證生成的程式碼以避免錯誤。 PubMed DOI

Using large language models (ChatGPT, Copilot, PaLM, Bard, and Gemini) in Gross Anatomy course: Comparative analysis.
在大體解剖課程中使用大型語言模型（ChatGPT、Copilot、PaLM、Bard 和 Gemini）：比較分析。 Clin Anat 2024-11-22

這項研究評估了六個生成式人工智慧大型語言模型（LLMs）在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示，ChatGPT-4的準確率最高，達60.5%，其次是Copilot（42.0%）和ChatGPT-3.5（41.0%）。雖然這些模型尚未能完全取代解剖學教育者，但它們在醫學教育中仍具備實用價值。 PubMed DOI

Large Language Models with Vision on Diagnostic Radiology Board Exam Style Questions.
具備視覺的大型語言模型在診斷放射學考試風格問題上的應用。 Acad Radiol 2024-12-04

這項研究評估了大型語言模型（LLMs）在回答放射科考試問題時的表現，特別是當問題包含影像時。研究選取了280個問題，測試了三個模型：GPT-4V、Gemini 1.5 Pro和Claude 3.5 Sonnet，使用多模態、僅影像和僅文字三種提示格式。結果顯示，GPT-4V和Gemini 1.5 Pro的正確回答率約54-57%，而Claude 3.5 Sonnet在僅文字（63%）和多模態（66%）的表現上明顯優於僅影像（48%）。整體來看，這些模型未能有效利用影像來提升表現，顯示出進一步研究的潛力。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

原始文章

站上相關主題文章列表