原始文章

這項研究探討了使用大型語言模型(LLM),特別是ChatGPT 3.5,來評估伊利諾伊大學醫學院臨床前醫學生的批判性評估作業。研究發現,ChatGPT與教師評分的協議率達67%,顯示出合理的一致性,且能有效減少教師評分時間五倍,潛在節省約150小時。總體而言,這項研究建議使用ChatGPT等LLM能有效協助醫學教育中的作業評估,減輕教師負擔。 PubMed DOI


站上相關主題文章列表

製作醫學考題很費時,但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助,但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現,學生在兩種問題來源下表現沒有太大差異,但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

這項研究評估了ChatGPT-3.5在肺病學考試中的表現,並與三年級醫學生進行比較。研究分為兩組:244名法語醫學生和ChatGPT,後者以無上下文(V1)和有上下文(V2)兩種格式測試。結果顯示,V1在放射學和胸外科表現佳,但在病理學和藥理學上不理想;V2則在所有類別中表現更準確,並在開放式問題上優於學生。V2通過考試的比例超過62.1%,而V1未能通過。總體而言,ChatGPT的表現與醫學生相似,受問題格式和複雜度影響,尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

這項研究評估了ChatGPT 3.5在評分一年級醫學生撰寫的臨床筆記的效果,並與標準化病人進行比較。研究涵蓋168名學生,結果顯示ChatGPT的錯誤評分率僅1.0%,而標準化病人則為7.2%。平均錯誤數方面,ChatGPT為12,標準化病人則高達85,且差異顯著(P=.002)。這項研究顯示,GPT模型在評分臨床筆記上具有潛力,未來可能在醫療教育中提供即時反饋,標誌著醫學教育的一大進步。 PubMed DOI

生成式 AI 模型如 ChatGPT 正逐漸融入醫學教育,許多學生利用它來學習和準備考試,包括美國醫學執照考試(USMLE)。根據2023年5月的調查,96% 的醫學生知道 ChatGPT,52% 曾使用過它來完成課業。學生常用它解釋醫學概念、協助診斷及文法檢查。不過,對於不準確性、病人隱私和抄襲的擔憂也浮現,顯示出制定規範以確保道德使用的必要性。了解學生的看法對於建立負責任的使用指導方針至關重要。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫學教育中自動短答案評分的應用,使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括:GPT-4的分數低於人類評估者,但假陽性率較低;Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性,且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱,LLM可能存在偏見風險,仍需人類監督。整體而言,LLM在醫學教育評估中具潛力,但人類參與仍不可或缺。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Gemini,在體育生理課程中評分書面作業的效果。研究比較了這些AI模型與人類評分者在使用布魯姆分類法的評分準則下的準確性和可靠性。結果顯示,雖然LLMs有一定的評估能力,但仍未達到人類評分者的水準,人類之間的評分一致性較高。人類與LLM的評分相關性通常為中等到較差,顯示AI在教育評估中的輔助潛力,但也強調了AI技術和教育者學習策略需持續改進。 PubMed DOI

這項研究評估大型語言模型(LLMs)在急診醫學標準化評估信(SLOEs)競爭力評估中的有效性,並與教職員共識及現有演算法比較。分析了五十份模擬的SLOEs,結果顯示LLM的初步排名與教職員的排名高度相關(r = 0.96),顯示LLM能有效反映教職員的評估。不過,當LLM根據自身標準修正排名後,相關性略降至(r = 0.86)。整體而言,LLM在專家排名上表現一致,且所需的教職員參與程度低,顯示其有潛力簡化SLOE的審查過程。 PubMed DOI

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人,特別是在病史採集方面。研究分為兩個階段:第一階段評估其可行性,模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性,並調整提示以增強回應。 結果顯示,ChatGPT能有效區分不同質量的回應,經過修訂的提示使其準確性提高了4.926倍。整體而言,研究表明ChatGPT可作為模擬醫學評估的工具,並有潛力改善醫學訓練。 PubMed DOI