A real-world test of artificial intelligence infiltration of a university examinations system: A "Turing Test" case study.
人工智慧滲透大學考試系統的現實世界測試：一個「圖靈測試」案例研究。 PLoS One 2024-06-26

在教育領域使用像ChatGPT這樣的人工智慧系統，尤其在評估方面，帶來了挑戰。學生或許會透過提交由人工智慧生成的作品來作弊。一項英國大學的研究發現，94%的人工智慧作品未被檢測出來，且得分通常高於真實學生作品。這引發對評估誠信性的擔憂，尤其在COVID-19時期，無監考考試的使用增加。 PubMed DOI

A comparison of human, GPT-3.5, and GPT-4 performance in a university-level coding course.
人類、GPT-3.5 和 GPT-4 在大學級程式設計課程中的表現比較。 Sci Rep 2024-10-07

這項研究比較了ChatGPT的不同版本（GPT-3.5和GPT-4）在有無提示工程下，對大學物理編程作業的表現。研究分析了50份學生和50份AI生成的作業，結果顯示學生的平均得分為91.9%，明顯高於最佳AI（使用提示工程的GPT-4）的81.1%。提示工程對兩個版本的得分都有提升。評分者能準確識別作品作者，92.1%的作品被判定為人類創作，整體準確率為85.3%。這顯示AI作品雖然接近學生水準，但仍可被識別。 PubMed DOI

AI-generated vs. student-crafted assignments and implications for evaluating student work in nursing: an exploratory reflection.
AI 生成的作業與學生創作的作業及其對護理學生作品評估的影響：一項探索性反思。 Int J Nurs Educ Scholarsh 2024-10-14

隨著 AI 語言模型如 ChatGPT 的興起，護理教育中的學術誠信受到關注，特別是學生可能會提交 AI 生成的內容。研究中，四名護理學生提交了自己撰寫和 ChatGPT 生成的「致編輯的信」作業。結果顯示，雖然 AI 生成的內容語法正確，但常有過時或虛構的參考文獻，且缺乏深度。護理教育者需了解 AI 的能力與限制，以支持學生學習並維持學術誠信，並發展有效的評估策略，促進原創思考與批判性分析。 PubMed DOI

Testing the capacity of Bard and ChatGPT for writing essays on ethical dilemmas: A cross-sectional study.
測試 Bard 和 ChatGPT 在撰寫倫理困境論文的能力：一項橫斷面研究。 Sci Rep 2024-10-30

最近大型語言模型（如ChatGPT和Bard）在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文，並檢視其是否能與人類作品區分。研究團隊收集了47篇學生的原創論文，並利用這些內容生成相同數量的AI論文。分析結果顯示，AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異，兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

Could ChatGPT get an engineering degree? Evaluating higher education vulnerability to AI assistants.
ChatGPT 能獲得工程學位嗎？評估高等教育對 AI 助手的脆弱性。 Proc Natl Acad Sci U S A 2024-11-26

隨著像 ChatGPT 這樣的 AI 助手在高等教育中越來越普及，學生的使用帶來了教學與評量上的好處與挑戰。本研究針對大學評量在 STEM 課程中對生成式 AI 的脆弱性進行探討，分析了洛桑聯邦理工學院 50 門課程的評量題目。結果顯示，GPT-4 的正確回答率達 65.8%，使用不同提示策略時可達 85.1%。這顯示 AI 系統能通過許多核心課程的評量，讓人擔憂高等教育的認證完整性，並需重新評估評量設計以應對 AI 的進步。 PubMed DOI

Investigating generative AI models and detection techniques: impacts of tokenization and dataset size on identification of AI-generated text.
探討生成式 AI 模型及檢測技術：標記化和數據集大小對識別 AI 生成文本的影響。 Front Artif Intell 2024-12-04

這項研究探討了生成式 AI 模型（如 ChatGPT、Gemini 和 Claude）在 K-12 教育中的應用，強調其在各科目的優勢，並討論學術不誠實的倫理問題。研究使用傳統機器學習模型和大型語言模型來檢測高風險寫作評估中的 AI 生成內容，並評估檢測方法的效果，考慮改寫工具的影響。研究還引入新方法，利用同義詞資訊識別人性化的 AI 文字，並探討數據集大小對模型表現的影響，以指導未來的數據收集。 PubMed DOI

Comparing new tools of artificial intelligence to the authentic intelligence of our global health students.
比較人工智慧的新工具與我們全球健康學生的真實智慧。 BioData Min 2024-12-19

這項研究評估了生成式人工智慧（如ChatGPT-4o）在全球健康領域的資訊素養，與研究生的論文進行比較。54名學生中有28人參加，結果顯示他們普遍認為AI生成的論文不如自己的作品，平均滿意度僅2.39（滿分5分）。雖然AI生成的729個參考文獻中54%是真實的，但46%是虛構的，且只有26.5%與論文內容相關。學生指出AI的速度和創新主題能力，但也強調其準確性和可靠性不足，特別是在公共健康資訊上，這引發了對於誤導可信來源的擔憂。 PubMed DOI

Evaluating human ability to distinguish between ChatGPT-generated and original scientific abstracts.
評估人類區分 ChatGPT 生成與原創科學摘要的能力。 Updates Surg 2025-01-24

這項研究探討人類評審者在辨識ChatGPT生成的科學摘要與原始摘要的準確性。來自不列顛哥倫比亞大學的41名外科實習生和教職員參加了線上調查，結果顯示只有40%能正確識別原始摘要，而63.4%偏好AI生成的摘要。分析指出，偏好原始摘要的受訪者更容易正確識別。這顯示人類在區分AI與人類生成內容上面臨挑戰，並且對AI生成的摘要有明顯偏好，突顯了AI在學術寫作中的影響及其倫理考量。 PubMed DOI

Detecting Artificial Intelligence-Generated Versus Human-Written Medical Student Essays: Semirandomized Controlled Study.
檢測人工智慧生成與人類撰寫的醫學生論文：半隨機對照研究。 JMIR Med Educ 2025-03-07

這項研究探討醫療專家與人文學者在辨識醫學生與ChatGPT生成文本的能力。研究於2023年5月至8月進行，35位專家分析了兩篇醫學主題的文本，並被要求找出AI生成的部分。結果顯示，專家們在70%的情況下正確識別AI文本，兩組專家之間差異不大。雖然內容錯誤影響不大，但冗餘、重複和連貫性等風格特徵對他們的判斷至關重要。研究建議未來可在不同學術領域進一步探討，以提升辨識能力。 PubMed DOI

Using aggregated AI detector outcomes to eliminate false-positives in STEM-student writing.
利用聚合的 AI 偵測結果消除 STEM 學生寫作中的假陽性。 Adv Physiol Educ 2025-03-19

這項研究探討了人工智慧檢測器在辨別學生撰寫的論文與AI生成論文的效果，參與者為190名低年級解剖學與生理學的學生。研究分析了50篇論文，使用四種AI檢測器，並由人類評分者評估48篇。結果顯示，人類評分者的準確率為84-95%，而AI檢測器則為93-98%。假陽性率低，AI檢測器僅有1.3%的錯誤分類。學生調查顯示，許多人認為AI生成的論文優於自己的作品。整體來看，結合使用AI檢測器對教師評估學生作品是有效的策略。 PubMed DOI

原始文章

站上相關主題文章列表