原始文章

這項研究比較了ChatGPT的不同版本(GPT-3.5和GPT-4)在有無提示工程下,對大學物理編程作業的表現。研究分析了50份學生和50份AI生成的作業,結果顯示學生的平均得分為91.9%,明顯高於最佳AI(使用提示工程的GPT-4)的81.1%。提示工程對兩個版本的得分都有提升。評分者能準確識別作品作者,92.1%的作品被判定為人類創作,整體準確率為85.3%。這顯示AI作品雖然接近學生水準,但仍可被識別。 PubMed DOI


站上相關主題文章列表

ChatGPT等大型語言模型的普及,讓學生在學業上有更多便利,但也引發了學術誠信議題。研究比較了ChatGPT在大學課業中的表現,結果顯示它在各種科目中表現良好,難以被檢測。學生接受度高,但教育工作者擔心抄襲問題。這些結果對於未來教育政策的制定有所助益。 PubMed DOI

ChatGPT等生成式AI模型廣泛運用,將對教育和資訊生成產生重大影響。研究指出,AI文章品質較高,風格與人寫不同。建議教育工作者應融入AI技術,重新思考作業方式,並運用AI工具提升學習成效。 PubMed DOI

ChatGPT、Bard和Claude等AI工具在工程教育中備受關注。一門專注於機械工程師編碼的課程引入新評量方式,強調學生努力和理解。參與學生在考試中表現更好,顯示這方法有助應對不斷發展的AI工具。未來研究應探討如何負責任地運用AI於教育。 PubMed DOI

研究比較GPT-3.5和GPT-4在德國醫學執照考試的結果,發現GPT-4平均得分85%,比GPT-3.5表現更好。GPT-4在內外科表現優秀,但在學術研究方面稍微弱一些。研究指出,像ChatGPT這樣的人工智慧模型可以提升醫學教育和病人護理,但也提醒醫學訓練者需要具備批判性評估能力。未來需要進一步研究ChatGPT對大眾安全和準確性的影響。 PubMed DOI

GPT-4是個厲害的工具,能產生英文文本,對應標準化考試問題表現不錯。但還需進一步評估其在各科目中的正確性和可靠性。一項研究評估了GPT-4在研究生級的生物醫學科學考試中的表現,發現大多數情況下比學生表現好,但在某些問題上表現不佳。有些答案被標記為抄襲,且偶爾提供不正確的回答。了解這些限制可幫助未來考試設計更貼近智慧機器人時代的需求。 PubMed DOI

在教育領域使用像ChatGPT這樣的人工智慧系統,尤其在評估方面,帶來了挑戰。學生或許會透過提交由人工智慧生成的作品來作弊。一項英國大學的研究發現,94%的人工智慧作品未被檢測出來,且得分通常高於真實學生作品。這引發對評估誠信性的擔憂,尤其在COVID-19時期,無監考考試的使用增加。 PubMed DOI

這項研究比較了AI聊天機器人(如ChatGPT-4、Bing和Bard)與醫學研究生在臨床化學多選題的表現。結果顯示,ChatGPT-4的平均得分為0.90,超過學生的0.68,其他AI的得分分別為0.77、0.73和0.67。研究指出,AI在記憶和理解的表現較佳,但在應用和分析上則較弱。雖然ChatGPT-4表現優秀,但也引發了對學術誠信及多選題使用的擔憂,值得重新思考其在高等教育中的適用性。 PubMed DOI

隨著 AI 語言模型如 ChatGPT 的興起,護理教育中的學術誠信受到關注,特別是學生可能會提交 AI 生成的內容。研究中,四名護理學生提交了自己撰寫和 ChatGPT 生成的「致編輯的信」作業。結果顯示,雖然 AI 生成的內容語法正確,但常有過時或虛構的參考文獻,且缺乏深度。護理教育者需了解 AI 的能力與限制,以支持學生學習並維持學術誠信,並發展有效的評估策略,促進原創思考與批判性分析。 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

隨著像 ChatGPT 這樣的 AI 助手在高等教育中越來越普及,學生的使用帶來了教學與評量上的好處與挑戰。本研究針對大學評量在 STEM 課程中對生成式 AI 的脆弱性進行探討,分析了洛桑聯邦理工學院 50 門課程的評量題目。結果顯示,GPT-4 的正確回答率達 65.8%,使用不同提示策略時可達 85.1%。這顯示 AI 系統能通過許多核心課程的評量,讓人擔憂高等教育的認證完整性,並需重新評估評量設計以應對 AI 的進步。 PubMed DOI