原始文章

這項研究探討了使用大型語言模型(LLM),特別是ChatGPT 3.5,來評估伊利諾伊大學醫學院臨床前醫學生的批判性評估作業。研究發現,ChatGPT與教師評分的協議率達67%,顯示出合理的一致性,且能有效減少教師評分時間五倍,潛在節省約150小時。總體而言,這項研究建議使用ChatGPT等LLM能有效協助醫學教育中的作業評估,減輕教師負擔。 PubMed DOI


站上相關主題文章列表

LLMs(大型語言模型)如ChatGPT展現了理解和生成人類文本的潛力。研究評估了ChatGPT在英國醫學執照考試中的表現,結果顯示在某些專業領域表現不錯,但在其他領域表現較差。ChatGPT在67.5%的問題中提供了正確答案,顯示其在醫學教育中有潛力成為輔助學習工具,但需要適當監督。 PubMed DOI

研究探討印度大學醫學生對使用ChatGPT和Google Bard等大型語言模型的態度。調查發現,學生對LLMs持正面看法,但實際使用不多。人們擔心過度依賴LLMs可能帶來的準確性問題。需要進一步研究LLMs對教育的全面影響。 PubMed DOI

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀,回答更有深度。兩者一致性高,對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識,但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確,在醫療領域有重要價值需受到監督。 PubMed DOI

製作醫學考題很費時,但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助,但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現,學生在兩種問題來源下表現沒有太大差異,但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

這項研究評估了ChatGPT-3.5在肺病學考試中的表現,並與三年級醫學生進行比較。研究分為兩組:244名法語醫學生和ChatGPT,後者以無上下文(V1)和有上下文(V2)兩種格式測試。結果顯示,V1在放射學和胸外科表現佳,但在病理學和藥理學上不理想;V2則在所有類別中表現更準確,並在開放式問題上優於學生。V2通過考試的比例超過62.1%,而V1未能通過。總體而言,ChatGPT的表現與醫學生相似,受問題格式和複雜度影響,尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

這項研究評估了ChatGPT 3.5在評分一年級醫學生撰寫的臨床筆記的效果,並與標準化病人進行比較。研究涵蓋168名學生,結果顯示ChatGPT的錯誤評分率僅1.0%,而標準化病人則為7.2%。平均錯誤數方面,ChatGPT為12,標準化病人則高達85,且差異顯著(P=.002)。這項研究顯示,GPT模型在評分臨床筆記上具有潛力,未來可能在醫療教育中提供即時反饋,標誌著醫學教育的一大進步。 PubMed DOI

生成式 AI 模型如 ChatGPT 正逐漸融入醫學教育,許多學生利用它來學習和準備考試,包括美國醫學執照考試(USMLE)。根據2023年5月的調查,96% 的醫學生知道 ChatGPT,52% 曾使用過它來完成課業。學生常用它解釋醫學概念、協助診斷及文法檢查。不過,對於不準確性、病人隱私和抄襲的擔憂也浮現,顯示出制定規範以確保道德使用的必要性。了解學生的看法對於建立負責任的使用指導方針至關重要。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫學教育中自動短答案評分的應用,使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括:GPT-4的分數低於人類評估者,但假陽性率較低;Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性,且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱,LLM可能存在偏見風險,仍需人類監督。整體而言,LLM在醫學教育評估中具潛力,但人類參與仍不可或缺。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI