原始文章

這項研究探討醫療專家與人文學者在辨識醫學生與ChatGPT生成文本的能力。研究於2023年5月至8月進行,35位專家分析了兩篇醫學主題的文本,並被要求找出AI生成的部分。結果顯示,專家們在70%的情況下正確識別AI文本,兩組專家之間差異不大。雖然內容錯誤影響不大,但冗餘、重複和連貫性等風格特徵對他們的判斷至關重要。研究建議未來可在不同學術領域進一步探討,以提升辨識能力。 PubMed DOI


站上相關主題文章列表

這項研究比較了在骨科和運動醫學領域中人類撰寫和人工智慧生成的科學文獻。研究人員發現,無論是專家還是AI檢測軟體都無法區分人類撰寫的文本和大型語言模型(LLMs)生成的文本。這項研究指出,需要進一步研究以了解在學術寫作中使用人工智慧的影響,並確保科學的完整性。 PubMed DOI

這項研究探討普通外科住院醫師訓練的教職員是否能區分人類與AI(如ChatGPT)撰寫的文章。研究生成了十篇文章,五篇由住院醫師撰寫,五篇由ChatGPT生成。十位教職員進行盲評,結果顯示兩組文章的得分差異不大,ChatGPT的平均得分為66.0%,人類為70.0%。教職員在識別文章來源上也面臨困難,顯示出對AI生成內容的偏見。這提醒學術界需準備面對AI在醫學教育中的影響。 PubMed DOI

這項研究探討外科住院醫師申請審核者辨識AI生成的個人陳述的能力及其看法。研究使用ChatGPT創建三份AI陳述,並與三份成功申請的醫學生陳述比較。結果顯示,審核者正確辨識AI陳述的比例僅59%,且66.7%的人反對在個人陳述中使用AI。大多數參與者認為AI會影響他們對申請者的看法。這項研究強調了辨識AI生成內容的挑戰,並對其在住院醫師申請中的影響表示擔憂。 PubMed DOI

隨著 AI 語言模型如 ChatGPT 的興起,護理教育中的學術誠信受到關注,特別是學生可能會提交 AI 生成的內容。研究中,四名護理學生提交了自己撰寫和 ChatGPT 生成的「致編輯的信」作業。結果顯示,雖然 AI 生成的內容語法正確,但常有過時或虛構的參考文獻,且缺乏深度。護理教育者需了解 AI 的能力與限制,以支持學生學習並維持學術誠信,並發展有效的評估策略,促進原創思考與批判性分析。 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

這項研究探討了人類評審、重複量化分析(RQA)和AI檢測工具GPTZero在辨別人類與AI生成的個人陳述的有效性,特別針對物理治療師教育計畫的申請。研究分析了50份梅奧診所的申請者陳述與50份由Google Gemini生成的陳述。結果顯示,人類評審在辨識上表現一致且準確,而RQA和GPTZero也各有優勢。研究強調,未來應結合這些方法,以提升對個人陳述的評估,確保學術誠信。 PubMed DOI

這項研究探討人類評審者在辨識ChatGPT生成的科學摘要與原始摘要的準確性。來自不列顛哥倫比亞大學的41名外科實習生和教職員參加了線上調查,結果顯示只有40%能正確識別原始摘要,而63.4%偏好AI生成的摘要。分析指出,偏好原始摘要的受訪者更容易正確識別。這顯示人類在區分AI與人類生成內容上面臨挑戰,並且對AI生成的摘要有明顯偏好,突顯了AI在學術寫作中的影響及其倫理考量。 PubMed DOI

這項研究評估人類是否能區分由人類撰寫的醫學手稿與AI生成的手稿,特別是使用ChatGPT 3.5。研究於2023年10月進行,51位醫師參與,隨機審閱三篇手稿。結果顯示,參與者識別作者的準確率不高,特異性55.6%,敏感性31.2%。高影響因子的手稿較易識別,而影響因子低的則較難。與AI互動頻率高的人更能正確識別作者。總之,研究顯示生成式AI的醫學手稿難以區分,凸顯學術出版的潛在影響及對AI內容認識的需求。 PubMed DOI

這項研究探討了人工智慧檢測器在辨別學生撰寫的論文與AI生成論文的效果,參與者為190名低年級解剖學與生理學的學生。研究分析了50篇論文,使用四種AI檢測器,並由人類評分者評估48篇。結果顯示,人類評分者的準確率為84-95%,而AI檢測器則為93-98%。假陽性率低,AI檢測器僅有1.3%的錯誤分類。學生調查顯示,許多人認為AI生成的論文優於自己的作品。整體來看,結合使用AI檢測器對教師評估學生作品是有效的策略。 PubMed DOI

這項研究探討了如何區分人類撰寫的摘要與ChatGPT生成的摘要,分析了160篇摘要,並使用了三種AI檢測工具和一個抄襲檢測器。研究發現,所有方法對摘要來源的判斷都有誤,學者的經驗影響檢測準確性,資深學者表現最佳。GPTZero和相似性檢測器在識別來源上特別有效。研究建議人類專家與AI工具合作,能提升識別學術摘要的準確性。 PubMed DOI