原始文章

這項研究開發了一個用大型語言模型的AI工具,能根據老師的評分標準自動批改醫學簡答題,分數跟人工評分幾乎一樣準(相關係數0.93–0.96)。這不只可以大幅減輕老師的批改壓力,還能給學生更細緻、個人化的回饋。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT-4o在生成高品質多選題(MCQs)的效果,並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生,回答了兩組各100題的MCQs。 主要發現包括:AI生成的題目較容易,且兩組題目的區分能力相似,但AI題目中有更多不準確及不適當的內容,且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。 結論指出,雖然ChatGPT-4o能有效生成MCQs,但在深度上仍不足,強調人類審核的重要性,結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

最近生成式人工智慧(AI)在醫學教育上有了新進展,特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題,經專家評估後,69%的題目經小幅修改後可用於考試。結果顯示,AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題,但仍需進行質量把關,為醫學教育提供了新的評估資源。 PubMed DOI

這項研究建立了一個自訂的GPT-3.5模型,用來評估一年級物理治療學生的解剖學作業,並將其表現與專業領域的專家進行比較。結果顯示,人工智慧的評分可以減輕工作負擔,同時確保評估的一致性和高品質。這表明人工智慧有潛力提升醫學教育的效率和個性化。 PubMed DOI

這篇研究介紹 QUEST-AI 系統,利用大型語言模型自動產生、審查和修正 USMLE 醫學考題。經醫師和醫學生測試,多數 AI 出的題目都很合格,且難以分辨是否由人類撰寫。這技術有望讓醫學考題製作更快速、便宜又方便。 PubMed DOI

這項研究發現,AI(如ChatGPT-4o、Gemini Flash 1.5)在OSCE臨床技能評分上,給分普遍比人工評分高且更一致,尤其在視覺技能(像打針、打結)表現較佳。但遇到需要聽力或口語判斷的項目時,AI的評分準確度就比較差。整體來說,AI有潛力輔助OSCE評分,但針對溝通或聲音技能還需加強。 PubMed DOI

本研究提出用大型語言模型(LLM)自動評估AI生成的電子健康紀錄(EHR)摘要,效果和專家評分高度一致,尤其是像GPT-3這類模型。這種方法省時又可靠,有助於確保醫療AI摘要的品質與安全性,適合大規模應用。 PubMed DOI

這項研究發現,大型語言模型(LLMs)在有明確、結構化提示下,能準確且一致地評分醫學生臨床紀錄,但如果只給簡單指示,結果會不穩定。LLM有時會算錯總分,需要外部協助。整體來說,經過優化後,LLM有潛力成為醫學教育自動評分工具,但針對更複雜的評分系統還需進一步研究。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

研究發現,AI產生的醫學選擇題在難度和鑑別度上跟人類寫的差不多,整體品質也很高。不過,AI出的干擾選項效果比新手差一點,但跟專家差不多。總結來說,AI能出不錯的題目,但還是需要人類幫忙審查,才能讓選項更有品質。 PubMed DOI

Microsoft Copilot(原本叫 Bing Chat)用的是 GPT-4 技術,寫申論題的表現跟醫學生差不多,評分老師常常分不出 AI 和真人寫的差別。這代表未來 AI 影響下,學生和老師都更需要加強批判性思考和反思能力。 PubMed DOI