原始文章

COVID-19疫情促進了遠距學習的發展,讓開卷考試(OBEs)與閉卷考試(CBEs)在STEM教育中受到更多關注。本研究系統性回顧了自2013年以來的相關文獻,分析OBEs與CBEs對大學STEM學生的影響。結果顯示,OBEs通常能獲得較高的學生分數,但也存在變異性。儘管OBEs更能評估現代教育所需的能力,先進的語言模型(LLMs)卻可能影響其有效性,造成學術誠信的問題。因此,未來研究需探討如何在LLMs影響下維持OBEs的公正性與有效性。 PubMed DOI


站上相關主題文章列表

製作醫學考題很費時,但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助,但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現,學生在兩種問題來源下表現沒有太大差異,但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

大型語言模型(LLMs)如GPT-3.5、GPT-4和Bard在教育領域有重要應用。研究指出,GPT-4在NEET-2023考試問題回答上表現優異,準確率高於GPT-3.5和Bard。透過交叉檢查回答可提升準確性,GPT-4是可靠選擇。這研究凸顯LLMs在教育中的潛力,為其在高風險考試中的應用設下新標竿。 PubMed DOI

GPT-4是個厲害的工具,能產生英文文本,對應標準化考試問題表現不錯。但還需進一步評估其在各科目中的正確性和可靠性。一項研究評估了GPT-4在研究生級的生物醫學科學考試中的表現,發現大多數情況下比學生表現好,但在某些問題上表現不佳。有些答案被標記為抄襲,且偶爾提供不正確的回答。了解這些限制可幫助未來考試設計更貼近智慧機器人時代的需求。 PubMed DOI

這項研究回顧了ChatGPT在醫學執照考試的表現,分析了2022年1月到2024年3月間的45項研究。結果顯示,GPT-4的準確率達81%,優於GPT-3.5的58%。GPT-4在29項考試中通過26項,並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現,但對GPT-4無影響。兩者在問題類型上表現不同,GPT-3.5在短文本問題上較佳,而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力,但也指出準確性不一致及各國知識差異的挑戰,旨在提供教育者和政策制定者相關資訊。 PubMed DOI

這項研究評估了六個大型語言模型(LLM)的表現,並與生物醫學及健康資訊學課程學生的知識評估分數進行比較。研究涵蓋139名學生,包括研究生、繼續教育學生和醫學生,他們回答了多選題和期末考。結果顯示,這些LLM的得分介於學生的第50到75百分位之間,表現相當不錯。這引發了對高等教育中學生評估方法的思考,特別是在在線課程中,因為LLM的能力可能會挑戰傳統的評估方式。 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

最近的研究顯示,像 ChatGPT 這樣的大型語言模型(LLMs)能有效通過美國醫學執照考試(USMLE)。本研究評估了不同版本的 ChatGPT(GPT-3.5、GPT-4 和 GPT-4 Omni)在醫學學科及臨床技能方面的表現。結果顯示,GPT-4 Omni 的準確率最高,達到90.4%,明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力,但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

這項研究探討大型語言模型(LLMs),如ChatGPT和Gemini,在體育生理課程中評分書面作業的效果。研究比較了這些AI模型與人類評分者在使用布魯姆分類法的評分準則下的準確性和可靠性。結果顯示,雖然LLMs有一定的評估能力,但仍未達到人類評分者的水準,人類之間的評分一致性較高。人類與LLM的評分相關性通常為中等到較差,顯示AI在教育評估中的輔助潛力,但也強調了AI技術和教育者學習策略需持續改進。 PubMed DOI

這項研究系統性回顧並進行元分析,評估大型語言模型(LLMs)在全球牙科執照考試中的表現。研究涵蓋2022年1月至2024年5月的相關文獻,共納入11項研究,來自8個國家。結果顯示,GPT-3.5、GPT-4和Bard的準確率分別為54%、72%和56%,其中GPT-4表現最佳,通過超過一半的考試。雖然LLMs在牙科教育和診斷中顯示潛力,但整體準確性仍低於臨床應用標準,主要因為訓練數據不足及影像診斷挑戰,因此目前不適合用於牙科教育和臨床診斷。 PubMed DOI