原始文章

這項研究探討招生委員會如何從重視認知測量轉向更全面的審查,並重視非認知技能。研究評估了使用人工智慧,特別是OpenAI的ChatGPT,來評分申請者論文的有效性,並與人類評分進行比較。結果顯示,人類評分者間的一致性較低,而機器評分則較高,且兩者與認知測量的相關性都不強。機器評分的精確度和一致性明顯優於人類評分,這顯示若能妥善實施,機器評分可能提升招生質量。 PubMed DOI


站上相關主題文章列表

研究發現,ChatGPT在醫學生簡答評估中表現優於低分同學,但不及歷史平均水準。對於困難學生的干預仍有疑慮,需要進一步探討ChatGPT在高認知推理評估中的表現。 PubMed DOI

ChatGPT等生成式AI模型廣泛運用,將對教育和資訊生成產生重大影響。研究指出,AI文章品質較高,風格與人寫不同。建議教育工作者應融入AI技術,重新思考作業方式,並運用AI工具提升學習成效。 PubMed DOI

人工智慧和大型語言模型如ChatGPT帶來新教育機會,但在醫學和獸醫科學等領域仍在發展。教育工作者需熟悉這些模型,提升學生學習,負責任使用。研究發現GPT-4.0優於GPT-3.5,但對獸醫學生表現不佳,顯示在獸醫教育中使用人工智慧平台需謹慎。 PubMed DOI

這項研究探討普通外科住院醫師訓練的教職員是否能區分人類與AI(如ChatGPT)撰寫的文章。研究生成了十篇文章,五篇由住院醫師撰寫,五篇由ChatGPT生成。十位教職員進行盲評,結果顯示兩組文章的得分差異不大,ChatGPT的平均得分為66.0%,人類為70.0%。教職員在識別文章來源上也面臨困難,顯示出對AI生成內容的偏見。這提醒學術界需準備面對AI在醫學教育中的影響。 PubMed DOI

將人工智慧(AI)融入一般外科住院醫師訓練的招募過程,顯示出能改善傳統審查方法的不足。本研究評估了AI,特別是ChatGPT,在醫學生表現評估(MSPE)信件中的穩定性,並與經驗豐富的人類審查者比較。結果顯示,ChatGPT的評分一致性優於人類,但也有其局限性。這強調了在此背景下謹慎使用AI的必要性。雖然AI有助於改善住院醫師選拔,但仍需進一步研究以全面了解其能力與影響。 PubMed DOI

這項研究探討了ChatGPT在口腔與顏面外科考試中對牙科本科生的自動化作文評分(AES)可靠性,並與人類評估者進行比較。69名新加坡國立大學的學生參加了考試,結果顯示第一道題目的AES與人類評分有強相關性,而第二道題目則中等相關。評分者之間的一致性和可靠性都很高。研究指出,ChatGPT在作文評分上有潛力,但設計有效的評分標準對於提升可靠性非常重要。隨著進一步驗證,ChatGPT可望協助自我評估及自動化評分。 PubMed DOI

這項研究評估了ChatGPT在醫學專業考試中的表現,並探討人工智慧如何增強醫學教育。研究中向ChatGPT提出240個問題,結果顯示其在基礎醫學和臨床醫學的正確回答率均優於18,481名醫學畢業生。特別是在婦產科和醫學微生物學方面,ChatGPT的表現相當優異,但在解剖學上則不如畢業生。研究指出,像ChatGPT這樣的AI模型能顯著提升醫學教育,提供互動支持和個性化學習,最終改善教育質量和學生成功率。 PubMed DOI

這項研究探討了使用大型語言模型(LLM),特別是ChatGPT 3.5,來評估伊利諾伊大學醫學院臨床前醫學生的批判性評估作業。研究發現,ChatGPT與教師評分的協議率達67%,顯示出合理的一致性,且能有效減少教師評分時間五倍,潛在節省約150小時。總體而言,這項研究建議使用ChatGPT等LLM能有效協助醫學教育中的作業評估,減輕教師負擔。 PubMed DOI

這篇文章探討了一項實驗,對比了ChatGPT-4和ChatGPT-3.5在SAT、BMAT和IMSAT等入學考試的表現。結果顯示,ChatGPT-4的表現明顯優於前一版本,SAT考試得分進入前10%,並且能夠取得進入頂尖義大利醫學院的分數。研究還分析了錯誤答案,找出了ChatGPT-4的三種邏輯和計算錯誤,突顯了其弱點,並提出了在教育中有效運用AI的建議,儘管仍有一些限制。 PubMed DOI

這項研究探討了ChatGPT生成的整形外科住院醫師個人陳述是否能與人類撰寫的內容相媲美。研究結果顯示,AI生成的陳述平均得分為7.48,而人類撰寫的為7.68,兩者之間並無顯著差異。評估者對於陳述來源的識別準確率為65.9%,顯示AI生成的內容越來越精緻。這強調了在住院醫師申請中,需更新評估標準以應對人工智慧的影響。 PubMed DOI