原始文章

研究發現,GPT-4產生的醫學選擇題品質大致接近專家水準,但錯誤率較高,像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目,仍需專家審核把關,確保正確性與品質。 PubMed DOI


站上相關主題文章列表

這項研究比較了AI聊天機器人(如ChatGPT-4、Bing和Bard)與醫學研究生在臨床化學多選題的表現。結果顯示,ChatGPT-4的平均得分為0.90,超過學生的0.68,其他AI的得分分別為0.77、0.73和0.67。研究指出,AI在記憶和理解的表現較佳,但在應用和分析上則較弱。雖然ChatGPT-4表現優秀,但也引發了對學術誠信及多選題使用的擔憂,值得重新思考其在高等教育中的適用性。 PubMed DOI

這項研究比較了ChatGPT生成的多選題與人類外科醫生創作的題目在有效性上的差異。研究對象為112名四年級醫學生,涵蓋結直腸、胃部、創傷、乳腺和甲狀腺五個主題。結果顯示,雖然在結直腸主題上兩者有正相關,但只有一題AI題目達到可接受的區分水平,而人類題目則始終達標。這顯示AI生成的題目需經人類監督,以提升教育評估的質量。 PubMed DOI

這項研究評估了ChatGPT-4o在生成高品質多選題(MCQs)的效果,並與人類專家創建的題目進行比較。參與者為準備香港急診醫學初試的醫生,回答了兩組各100題的MCQs。 主要發現包括:AI生成的題目較容易,且兩組題目的區分能力相似,但AI題目中有更多不準確及不適當的內容,且主要評估較低層次的認知技能。AI生成題目的時間大幅縮短。 結論指出,雖然ChatGPT-4o能有效生成MCQs,但在深度上仍不足,強調人類審核的重要性,結合AI效率與專家監督可提升醫學教育的題目創建。 PubMed DOI

最近生成式人工智慧(AI)在醫學教育上有了新進展,特別是解決考題庫短缺的問題。研究使用OpenAI的GPT-4生成220道符合醫學院評估標準的單選題,經專家評估後,69%的題目經小幅修改後可用於考試。結果顯示,AI生成的題目與人類撰寫的題目在學生表現上無顯著差異。這表明AI能有效生成符合教育標準的考題,但仍需進行質量把關,為醫學教育提供了新的評估資源。 PubMed DOI

這項研究探討了利用人工智慧,特別是GPT-4模型,來生成泌尿科住院醫師的多選題(MCQs)。研究者將模型結合醫療執照機構的指導方針,創造符合2023年加拿大皇家內科醫師及外科醫師學會標準的考題。從123道題中選出60道用於多倫多大學的考試,結果顯示這些題目能有效區分住院醫師的知識水平,且具良好的區辨價值。研究顯示,GPT-4等人工智慧模型能簡化多選題的創建過程,提升醫學教育的效率與成果,未來可進一步探索其應用。 PubMed DOI

這項研究探討了GPT-4在醫學教育中生成臨床案例多選題(MCQs)答案理由的效果。2023年8月,預科醫學生的課程主任評估了AI生成的80道題目,結果顯示GPT-4的正確率高達93.8%。課程主任認為這些理由大多準確(77.5%)、清晰(83.8%)且適當(93.8%),88.3%的理由幾乎不需修改。大多數主任對使用GPT-4持開放態度,審閱時間普遍在四分鐘內。研究結果顯示GPT-4可作為醫學教育的有效工具,未來將探討學生反饋及技術整合。 PubMed DOI

這項研究評估了三個生成式人工智慧模型—ChatGPT-4o、Gemini 1.5 Advanced Pro 和 Claude 3.5 Sonnet—在創建與高血壓和糖尿病相關的藥理學問題的有效性。使用一次性提示,這些模型生成了60個問題,並由多學科小組進行可用性評估。103名醫學生在考試中回答了AI生成的問題,結果顯示AI問題的正確率與專家問題相當,且AI生成問題的準備效率顯著提升。然而,仍有19個問題被認為無法使用,顯示專家審查的重要性。結合AI效率與專家驗證的方式,可能是改善醫學教育的最佳策略。 PubMed DOI

研究發現,GPT-4雖能協助產生藥學多選題,但品質參差不齊,僅少數題目可直接使用,大多仍需專家審查和修改。考題難度分布不均,部分題目也不夠合適。整體來說,AI可輔助出題,但還不能完全取代專業審核。 PubMed DOI

這項研究發現,GPT-4能產生品質不錯、難度適中的解剖學選擇題,學生普遍覺得題目清楚好懂。不過,AI出的題目多偏向記憶型,較難評量高階思考能力。整體來說,GPT-4有潛力協助出題,但還是需要專家審核,才能確保題目涵蓋進階認知層級。 PubMed DOI

研究發現,AI產生的醫學選擇題在難度和鑑別度上跟人類寫的差不多,整體品質也很高。不過,AI出的干擾選項效果比新手差一點,但跟專家差不多。總結來說,AI能出不錯的題目,但還是需要人類幫忙審查,才能讓選項更有品質。 PubMed DOI