原始文章

這項研究探討了ChatGPT在識別和修正多選題缺陷的有效性,於2023年2月至8月在Riphah國際大學進行。研究分三階段進行,第一階段ChatGPT成功識別缺陷並提出修正建議;第二階段則透過NBME指南訓練其檢測能力;第三階段測試顯示在某些缺陷上有所改善,但仍對非平行選項和詞彙重複等問題感到困難。整體效率未顯著改善,且高峰時段表現下降。這些結果顯示人工智慧在教育上的潛力與限制,持續研究對於發揮其能力至關重要。 PubMed DOI


站上相關主題文章列表

2022年底至2023年初,有報導指出ChatGPT可能通過USMLE考試,引起了許多興奮。研究發現,ChatGPT在大多數題目上得分超過60%,但表現有些變化。它在較簡單的題目上表現較好,但在實踐學習問題上表現較差。專家的驗證至關重要,使用人工智慧需謹慎。 PubMed DOI

AI,像ChatGPT,對傳統學術教學有影響。雖可提升教學,但人們擔心其生成教材。研究發現ChatGPT 3.5創建的多選題中,只有32%正確,有誤導性答案,需大量編輯。儘管如此,經教師審查後,AI工具可用於練習考試。 PubMed DOI

人工智慧在教育領域廣泛運用,為學生和老師帶來無限可能。ChatGPT在學術考試中表現優異,得高於平均分。尤其擅長回答否定問題並修正答案,還能根據指示創造新問題。老師應善用人工智慧,有效製作評估問題。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

這項研究比較了AI聊天機器人(如ChatGPT-4、Bing和Bard)與醫學研究生在臨床化學多選題的表現。結果顯示,ChatGPT-4的平均得分為0.90,超過學生的0.68,其他AI的得分分別為0.77、0.73和0.67。研究指出,AI在記憶和理解的表現較佳,但在應用和分析上則較弱。雖然ChatGPT-4表現優秀,但也引發了對學術誠信及多選題使用的擔憂,值得重新思考其在高等教育中的適用性。 PubMed DOI

這項研究評估了ChatGPT在為即將畢業的泌尿科住院醫師生成多選題的有效性。結果顯示,ChatGPT生成的題目平均得分為60.7%,與考生整體考試成績相近,但只有25%的題目能有效區分高低表現者。此外,許多題目存在信息不完整、合理答案過多及不準確的問題,甚至有35%的題目提供錯誤答案。研究強調,在醫學評估中使用AI生成的問題前,必須進行仔細的審查與篩選。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究評估了ChatGPT-4o在生成高品質多選題(MCQs)的效果,並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生,回答了兩組各100題的MCQs。 主要發現包括:AI生成的題目較容易,且兩組題目的區分能力相似,但AI題目中有更多不準確及不適當的內容,且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。 結論指出,雖然ChatGPT-4o能有效生成MCQs,但在深度上仍不足,強調人類審核的重要性,結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

這項研究探討AI生成的多選題(MCQs)對沙烏地阿拉伯某大學藥學管理課程考試的影響,並分析成績膨脹問題。研究比較了2024年使用ChatGPT生成的考題與2023年人類生成的考題。結果顯示,2024年考試的可靠性較高,題目難度分佈更佳,學生得分顯著較低,且鑑別指數提升,顯示學生表現區分度改善。這表明AI生成的考題能增強考試的嚴謹性,並可能減緩成績膨脹,但仍需審查內容以確保準確性。 PubMed DOI

學生們越來越依賴人工智慧(AI)工具,如ChatGPT,來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題,這些題目模仿美國醫學執照考試(USMLE)第一階段的格式。研究發現,83%的問題事實上是準確的,常見主題包括深靜脈血栓和心肌梗塞。研究建議,分開生成內容主題和問題可以提升多樣性。總體而言,ChatGPT-3.5能有效生成相關考題,但需謹慎提示以減少偏見,對醫學生準備USMLE考試有幫助。 PubMed DOI