Large Language Models in Medical Education: Opportunities, Challenges, and Future Directions.
醫學教育中的大型語言模型：機會、挑戰和未來方向。 JMIR Med Educ 2023-06-19

使用大型語言模型（LLMs）如GPT系列可提升醫學教育品質，但需注意演算法偏見、抄襲、錯誤資訊等挑戰。整合LLMs需謹慎，以確保教學效果。本文探討LLMs在醫學教育的機會與挑戰，提供未來有效運用人工智慧的建議。 PubMed DOI

Artificial Intelligence in Medical Education: Comparative Analysis of ChatGPT, Bing, and Medical Students in Germany.
人工智慧在醫學教育中的應用：對比分析 ChatGPT、Bing 和德國醫學生。 JMIR Med Educ 2023-09-21

2022年德國醫學州考試研究指出，GPT-4在630題中表現最佳，超越學生和其他模型。Bing在排除媒體問題後也表現優異。然而，秋季考試時GPT-4和Bing表現下滑，或許是因為媒體問題增加。研究建議LLMs，特別是GPT-4和Bing，在醫學教育和考試準備領域有潛力，值得進一步研發並應用於教育和臨床實務。 PubMed DOI

Assessing the Utilization of Large Language Models in Medical Education: Insights From Undergraduate Medical Students.
評估大型語言模型在醫學教育中的應用：來自大學醫學生的見解。 Cureus 2023-12-01

研究探討印度大學醫學生對使用ChatGPT和Google Bard等大型語言模型的態度。調查發現，學生對LLMs持正面看法，但實際使用不多。人們擔心過度依賴LLMs可能帶來的準確性問題。需要進一步研究LLMs對教育的全面影響。 PubMed DOI

Performance of large language models at the MRCS Part A: a tool for medical education?
大型語言模型在 MRCS Part A 考試的表現：醫學教育的工具？ Ann R Coll Surg Engl 2023-12-01

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀，回答更有深度。兩者一致性高，對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識，但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確，在醫療領域有重要價值需受到監督。 PubMed DOI

Evaluation of Large language model performance on the Multi-Specialty Recruitment Assessment (MSRA) exam.
大型語言模型在多專科招聘評估（MSRA）考試上的表現評估。 Comput Biol Med 2024-02-06

研究發現在醫學教育中使用大型語言模型（LLMs）回答多重選擇問題，Bing Chat效果最好，甚至超越人類。Llama 2表現較差，Google Bard和ChatGPT-3.5則接近人類水準。建議免費提供的LLMs在醫學考試中有潛力，特別是Bing Chat。研究也提到透過訓練可提升LLMs在醫學領域的應用。總結來說，這研究對LLMs在醫學教育和評估中的應用提供了有價值的見解。 PubMed DOI

Large Language Models in Medical Education: Comparing ChatGPT- to Human-Generated Exam Questions.
醫學教育中的大型語言模型：比較 ChatGPT 與人類生成的考試問題。 Acad Med 2024-01-02

製作醫學考題很費時，但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助，但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現，學生在兩種問題來源下表現沒有太大差異，但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

Large language models for generating medical examinations: systematic review.
大型語言模型用於生成醫學檢查：系統性回顧。 BMC Med Educ 2024-04-01

這篇評論討論了使用大型語言模型（LLMs）製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效，但需注意部分問題不適合醫學考試，需修改。未來研究應解決這些限制，LLMs可作為撰寫醫學多重選擇題的工具，但應謹慎使用。 PubMed DOI

Integrating Large Language Models in Bioinformatics Education for Medical Students: Opportunities and Challenges.
將此醫學文章的標題翻譯為繁體中文：「整合大型語言模型於醫學生物資訊教育：機會與挑戰」。 Ann Biomed Eng 2024-06-05

大型語言模型（LLMs）透過互動式學習，可改善醫學生的生物信息學教育。提供程式碼範本、解釋編碼元素、幫助解決錯誤，提升教育成果。LLMs在醫學研究中的應用已有案例。但內容可靠性需驗證。結合LLMs與傳統教學，有助醫學生應對生物信息學挑戰。 PubMed DOI

ChatGPT and large language models (LLMs) awareness and use. A prospective cross-sectional survey of U.S. medical students.
美國醫學生對 ChatGPT 和大型語言模型 (LLMs) 的認知與使用：一項前瞻性橫斷面調查。 PLOS Digit Health 2024-09-05

生成式 AI 模型如 ChatGPT 正逐漸融入醫學教育，許多學生利用它來學習和準備考試，包括美國醫學執照考試（USMLE）。根據2023年5月的調查，96% 的醫學生知道 ChatGPT，52% 曾使用過它來完成課業。學生常用它解釋醫學概念、協助診斷及文法檢查。不過，對於不準確性、病人隱私和抄襲的擔憂也浮現，顯示出制定規範以確保道德使用的必要性。了解學生的看法對於建立負責任的使用指導方針至關重要。 PubMed DOI

Performance of Publicly Available Large Language Models on Internal Medicine Board-style Questions.
公開可用的大型語言模型在內科醫學考試風格問題上的表現。 PLOS Digit Health 2024-09-17

持續的研究正在評估大型語言模型（LLMs）在內科考試中的表現，特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現，並使用檢索增強生成的方法進行測試。結果顯示，GPT-4.0的得分介於77.5%到80.7%之間，優於其他模型及人類受試者，尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性，顯示這種方法在醫學領域的潛力。 PubMed DOI

原始文章

站上相關主題文章列表