原始文章

這項研究評估了ChatGPT-4o在生成高品質多選題(MCQs)的效果,並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生,回答了兩組各100題的MCQs。 主要發現包括:AI生成的題目較容易,且兩組題目的區分能力相似,但AI題目中有更多不準確及不適當的內容,且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。 結論指出,雖然ChatGPT-4o能有效生成MCQs,但在深度上仍不足,強調人類審核的重要性,結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI


站上相關主題文章列表

本文討論如何運用人工智慧,尤其是ChatGPT,製作醫學教育的多重選擇題。探討了提示工程過程,提供了實現精準結果的見解。展示了人工智慧創造各種複雜問題的能力,並強調了審查的重要性。目的在於協助教育工作者運用人工智慧創建評估工具,徹底改變醫學教育。 PubMed DOI

研究發現使用ChatGPT製作醫學教育的多重選擇題有潛力,但問題有效性尚待確認。建議在考試前謹慎審查ChatGPT生成的題目,並避免盲目使用。ChatGPT可簡化測試開發,但品質仍需注意。 PubMed DOI

這項研究評估了ChatGPT在為即將畢業的泌尿科住院醫師生成多選題的有效性。結果顯示,ChatGPT生成的題目平均得分為60.7%,與考生整體考試成績相近,但只有25%的題目能有效區分高低表現者。此外,許多題目存在信息不完整、合理答案過多及不準確的問題,甚至有35%的題目提供錯誤答案。研究強調,在醫學評估中使用AI生成的問題前,必須進行仔細的審查與篩選。 PubMed DOI

這項研究比較了ChatGPT生成的多選題與人類外科醫生創作的題目在有效性上的差異。研究對象為112名四年級醫學生,涵蓋結直腸、胃部、創傷、乳腺和甲狀腺五個主題。結果顯示,雖然在結直腸主題上兩者有正相關,但只有一題AI題目達到可接受的區分水平,而人類題目則始終達標。這顯示AI生成的題目需經人類監督,以提升教育評估的質量。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

最近生成式人工智慧(AI)在醫學教育上有了新進展,特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題,經專家評估後,69%的題目經小幅修改後可用於考試。結果顯示,AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題,但仍需進行質量把關,為醫學教育提供了新的評估資源。 PubMed DOI

這項研究探討了利用人工智慧,特別是GPT-4模型,來生成泌尿科住院醫師的多選題(MCQs)。研究者將模型結合醫療執照機構的指導方針,創造符合2023年加拿大皇家內科醫師及外科醫師學會標準的考題。從123道題中選出60道用於多倫多大學的考試,結果顯示這些題目能有效區分住院醫師的知識水平,且具良好的區辨價值。研究顯示,GPT-4等人工智慧模型能簡化多選題的創建過程,提升醫學教育的效率與成果,未來可進一步探索其應用。 PubMed DOI

學生們越來越依賴人工智慧(AI)工具,如ChatGPT,來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題,這些題目模仿美國醫學執照考試(USMLE)第一階段的格式。研究發現,83%的問題事實上是準確的,常見主題包括深靜脈血栓和心肌梗塞。研究建議,分開生成內容主題和問題可以提升多樣性。總體而言,ChatGPT-3.5能有效生成相關考題,但需謹慎提示以減少偏見,對醫學生準備USMLE考試有幫助。 PubMed DOI

這項研究探討AI生成的多選題(MCQs)在放射學教育中的有效性,與教職員撰寫的題目比較。研究於2024-2025學年在土耳其進行,56名一年級醫學影像學生參加了兩場考試,分別由ChatGPT和教職員編寫。結果顯示兩場考試的正確答案平均數相似,且考試成績之間有中等正相關。雖然ChatGPT生成的問題在區分度和難度上稍遜,但整體來看,AI能生成與人類專家相當的題目,顯示其在健康教育評估中的潛力。 PubMed DOI

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示,這些模型生成了60個問題,並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題,結果顯示AI問題的正確率與專家問題相當,且AI生成問題的準備效率顯著提升。然而,仍有19個問題被認為無法使用,顯示專家審查的重要性。結合AI效率與專家驗證的方式,可能是改善醫學教育的最佳策略。 PubMed DOI