A systematic review of large language models and their implications in medical education.
大型語言模型在醫學教育中的影響：一個系統性回顧。 Med Educ 2024-04-19

使用大型語言模型（LLMs）在醫學教育可能有革新效果，解決資訊過載和時間不足等問題。研究指出LLMs對醫學生學習有正面影響，但也提到準確性和倫理挑戰。負責任地應用LLMs可增進學習體驗，但需注意準確性、技能培養和道德標準。持續評估和合作是整合LLMs在醫學教育中的關鍵。 PubMed DOI

Impact of Large Language Models on Medical Education and Teaching Adaptations.
大型語言模型對醫學教育的影響及教學調整。 JMIR Med Inform 2024-08-01

這篇文章探討大型語言模型（LLMs）對醫學教育的影響，指出其潛在好處如提升教學品質、個性化學習及增強臨床技能訓練等。然而，也提到挑戰，包括資訊準確性、過度依賴科技、缺乏情感智慧，以及隱私和數據安全的倫理問題。為了有效整合LLMs，教育者需具備適應性，培養批判性思維，並重視實踐經驗，以培養既懂科技又具職業倫理的醫療專業人員，應對未來挑戰。 PubMed DOI

LLM-based automatic short answer grading in undergraduate medical education.
基於 LLM 的本科醫學教育自動短答案評分。 BMC Med Educ 2024-09-28

這項研究探討大型語言模型（LLMs）在醫學教育中自動短答案評分的應用，使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括：GPT-4的分數低於人類評估者，但假陽性率較低；Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性，且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱，LLM可能存在偏見風險，仍需人類監督。整體而言，LLM在醫學教育評估中具潛力，但人類參與仍不可或缺。 PubMed DOI

Investigating the capabilities of advanced large language models in generating patient instructions and patient educational material.
探討先進大型語言模型在生成病人指導和病人教育材料方面的能力。 Eur J Hosp Pharm 2024-10-11

這項研究評估了兩個大型語言模型（LLMs），ChatGPT 4.0 和 Gemini 1.0 Pro，在生成病人指導和教育材料的效果。研究發現，兩者提供的信息一致且可靠，但在藥物過期和處理指導上有所不足。ChatGPT 4.0 在可理解性和可行性上表現較佳，且其輸出可讀性較高。整體來看，這些模型能有效生成病人教育材料，但仍需醫療專業人員的監督與指導，以確保最佳實施。 PubMed DOI

Leveraging large language models to construct feedback from medical multiple-choice Questions.
利用大型語言模型構建醫學多選題的反饋。 Sci Rep 2024-11-13

這項研究探討如何利用大型語言模型（LLMs）生成內容為基礎的反饋，以提升Progress Test Medizin考試的反饋效果，超越單純的數字分數。研究比較了兩個受歡迎的LLM在生成相關見解上的表現，並調查醫療從業人員和教育工作者對LLM能力及其反饋實用性的看法。結果顯示兩者表現相似，其中一個付費的稍優，另一個則免費。參與者認為反饋相關，並願意未來使用LLM。研究結論指出，雖然LLM生成的反饋不完美，但仍可作為傳統數字反饋的有價值補充。 PubMed DOI

Using large language models (ChatGPT, Copilot, PaLM, Bard, and Gemini) in Gross Anatomy course: Comparative analysis.
在大體解剖課程中使用大型語言模型（ChatGPT、Copilot、PaLM、Bard 和 Gemini）：比較分析。 Clin Anat 2024-11-22

這項研究評估了六個生成式人工智慧大型語言模型（LLMs）在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示，ChatGPT-4的準確率最高，達60.5%，其次是Copilot（42.0%）和ChatGPT-3.5（41.0%）。雖然這些模型尚未能完全取代解剖學教育者，但它們在醫學教育中仍具備實用價值。 PubMed DOI

Large language models improve clinical decision making of medical students through patient simulation and structured feedback: a randomized controlled trial.
大型語言模型透過病人模擬和結構化反饋提升醫學生的臨床決策能力：一項隨機對照試驗。 BMC Med Educ 2024-11-28

這項研究探討如何利用大型語言模型（LLMs）來提升醫學生的臨床決策訓練，透過模擬病人互動進行。研究分為對照組和反饋組，反饋組除了模擬對話外，還獲得AI生成的表現反饋。共21名醫學生參與，使用臨床推理指標評估表現。結果顯示，反饋組經過訓練後表現顯著優於對照組，特別在情境創建和資訊獲取上。研究指出，AI模擬對話結合結構化反饋，能有效支持臨床決策訓練，提升學生的實務準備。 PubMed DOI

Using Generative Artificial Intelligence in Medical Education.
在醫學教育中使用生成式人工智慧。 Acad Med 2024-12-02

大型語言模型（LLMs）在生成式人工智慧上有重大進展，能根據文本提示產生連貫的語言。在醫學教育中，LLMs展現了提升學習體驗、提供個性化輔導、生成教育內容及模擬病患互動的潛力。不過，隨著技術快速演變，準確性、倫理影響及錯誤資訊的擔憂也隨之而來。隨著LLMs能力的持續提升，其在醫學教育的應用可能會擴大，因此需要不斷評估與調整，以確保其有效且負責任地使用。 PubMed DOI

Enhancing Medical Education through LLM: Integration of Generative GPT for Assessment and Feedback.
透過 LLM 增強醫學教育：整合生成式 GPT 進行評估與回饋。 Med Sci Educ 2025-03-27

這項研究建立了一個自訂的GPT-3.5模型，用來評估一年級物理治療學生的解剖學作業，並將其表現與專業領域的專家進行比較。結果顯示，人工智慧的評分可以減輕工作負擔，同時確保評估的一致性和高品質。這表明人工智慧有潛力提升醫學教育的效率和個性化。 PubMed DOI

A Review of Large Language Models in Medical Education, Clinical Decision Support, and Healthcare Administration.
大型語言模型在醫學教育、臨床決策支持和醫療管理中的綜述。 Healthcare (Basel) 2025-03-28

大型語言模型（LLMs）在醫療保健中展現出顯著潛力，能增強醫學教育、臨床決策支持及醫療管理。文獻回顧顯示，LLMs可作為虛擬病人和個性化導師，並在醫學知識評估中超越初級實習生。在臨床決策中，它們協助診斷和治療建議，但效果因專科而異。此外，LLMs能自動化臨床筆記和報告生成，減輕醫療人員的負擔。然而，仍需解決幻覺、偏見及病人隱私等挑戰。未來的整合需謹慎，並強調倫理與合作。 PubMed DOI

原始文章

站上相關主題文章列表