原始文章

這項研究探討了ChatGPT在識別和修正多選題缺陷的有效性,於2023年2月至8月在Riphah國際大學進行。研究分三階段進行,第一階段ChatGPT成功識別缺陷並提出修正建議;第二階段則透過NBME指南訓練其檢測能力;第三階段測試顯示在某些缺陷上有所改善,但仍對非平行選項和詞彙重複等問題感到困難。整體效率未顯著改善,且高峰時段表現下降。這些結果顯示人工智慧在教育上的潛力與限制,持續研究對於發揮其能力至關重要。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

這項研究評估了ChatGPT-4o在生成高品質多選題(MCQs)的效果,並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生,回答了兩組各100題的MCQs。 主要發現包括:AI生成的題目較容易,且兩組題目的區分能力相似,但AI題目中有更多不準確及不適當的內容,且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。 結論指出,雖然ChatGPT-4o能有效生成MCQs,但在深度上仍不足,強調人類審核的重要性,結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

這項研究探討AI生成的多選題(MCQs)對沙烏地阿拉伯某大學藥學管理課程考試的影響,並分析成績膨脹問題。研究比較了2024年使用ChatGPT生成的考題與2023年人類生成的考題。結果顯示,2024年考試的可靠性較高,題目難度分佈更佳,學生得分顯著較低,且鑑別指數提升,顯示學生表現區分度改善。這表明AI生成的考題能增強考試的嚴謹性,並可能減緩成績膨脹,但仍需審查內容以確保準確性。 PubMed DOI

這項研究探討了ChatGPT在生成高品質的案例導向解剖學多選題(MCQs)的有效性,特別針對內分泌和泌尿生殖系統。研究使用結構化框架進行AI輔助題目生成,經專家評估後在502名二年級醫學生中測試。結果顯示,生成的題目在區分高低表現學生方面有效,且大多數題目難度適中,適合醫學考試。研究指出,ChatGPT是醫學教育者的有用工具,但人類專業知識仍然重要,以確保題目質量。未來可探討AI在其他解剖學主題的題目生成能力。 PubMed DOI

這項研究評估了ChatGPT在回答美國醫學執照考試第二階段臨床知識問題的表現,分析了其在不同醫學專科、問題類型和難度上的準確性。總共評估了3,000道問題,結果顯示正確率為57.7%。在「男性生殖系統」類別中準確率最高(71.7%),而「免疫系統」最低(46.3%)。隨著問題難度和長度增加,表現下降,顯示較複雜問題更易錯誤。整體而言,ChatGPT的能力接近及格門檻,顯示其作為醫學生輔助學習工具的潛力,並強調了精煉AI模型和設計抗AI考題的重要性。 PubMed DOI

學生們越來越依賴人工智慧(AI)工具,如ChatGPT,來輔助醫學教育和考試準備。一項研究檢視了AI生成的多選題,這些題目模仿美國醫學執照考試(USMLE)第一階段的格式。研究發現,83%的問題事實上是準確的,常見主題包括深靜脈血栓和心肌梗塞。研究建議,分開生成內容主題和問題可以提升多樣性。總體而言,ChatGPT-3.5能有效生成相關考題,但需謹慎提示以減少偏見,對醫學生準備USMLE考試有幫助。 PubMed DOI

這項研究探討AI生成的多選題(MCQs)在放射學教育中的有效性,與教職員撰寫的題目比較。研究於2024-2025學年在土耳其進行,56名一年級醫學影像學生參加了兩場考試,分別由ChatGPT和教職員編寫。結果顯示兩場考試的正確答案平均數相似,且考試成績之間有中等正相關。雖然ChatGPT生成的問題在區分度和難度上稍遜,但整體來看,AI能生成與人類專家相當的題目,顯示其在健康教育評估中的潛力。 PubMed DOI

研究發現,GPT-4產生的醫學選擇題品質大致接近專家水準,但錯誤率較高,像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目,仍需專家審核把關,確保正確性與品質。 PubMed DOI

這項研究發現,不同AI聊天機器人在幫醫學生出單一最佳答案題目時,品質和一致性都有差異,沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查,無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

**重點摘要:** ChatGPT 可以產生美國醫師執照考試(USMLE/COMLEX)風格的醫學考題,這些題目作為起點還算不錯,但大約有一半有寫作上的瑕疵,約五分之一有事實錯誤。在用於教學前,專家審查和修正是非常必要的。 PubMed DOI