原始文章

這項研究探討非專業讀者是否能分辨AI創作的詩與人類詩人的作品。結果顯示,參與者在識別AI詩時困難重重,準確率僅46.6%,甚至低於隨機猜測。更有趣的是,他們常將AI詩誤認為人類創作。AI詩在節奏和美感上獲得較高評價,導致誤判。研究指出,非專家在區分時常用錯誤推理,認為AI詩簡單且吸引,卻誤解人類詩的複雜性為不連貫。 PubMed DOI


站上相關主題文章列表

ChatGPT改變了人們的工作、學習和寫作方式,現在區分人類和AI寫作變得重要。一種方法可區分ChatGPT和科學家的文字,科學家常用長段落和含糊詞語。透過監督式分類方法,建立了可準確識別作者的模型,可用於檢測學術寫作和其他領域中的AI使用。 PubMed DOI

這項研究比較了在骨科和運動醫學領域中人類撰寫和人工智慧生成的科學文獻。研究人員發現,無論是專家還是AI檢測軟體都無法區分人類撰寫的文本和大型語言模型(LLMs)生成的文本。這項研究指出,需要進一步研究以了解在學術寫作中使用人工智慧的影響,並確保科學的完整性。 PubMed DOI

AI技術進步,醫學期刊探討AI生成文本政策增加。然而,AI檢測工具在分辨人類和AI內容上有準確性問題。研究指出,現有AI檢測工具在辨識AI生成文本時錯誤率高,引發對依賴此工具執行政策的疑慮。 PubMed DOI

研究探討人們對道德或技術主題文字的看法,比較人類作者和ChatGPT。結果顯示,人們普遍對ChatGPT的評分較低,顯示對演算法的不信任。這暗示使用大型語言模型可能會有潛在影響。 PubMed DOI

研究評估了2022年《外科腫瘤學年鑑》中人類和AI生成的科學文章,結果顯示人類文章中有9.4%可能是AI生成的,而AI文章中有43.5%可能是AI生成的。這突顯了檢測器表現的不同,也凸顯了隨著AI技術進步,持續評估的重要性。 PubMed DOI

在2024年進行的一項研究評估了人類與人工智慧(AI)生成的論文在中風護理領域的質量。這項競賽共收到34篇論文,經《Stroke》期刊的專家審查。結果顯示,人類與AI論文的整體評分相似,但AI論文的寫作質量較高。審稿人識別作者類型的準確率僅50%,且有經驗的審稿人在區分上表現較好。研究建議科學期刊應教育審稿人關於AI的角色,並制定相關政策。 PubMed DOI

這項研究評估了GPT-4撰寫放射學社論的能力,並與人類撰寫的社論進行比較。分析了來自八本期刊的十六篇社論,結果顯示AI撰寫的社論在評分上表現較好,但人類撰寫的文章在整體感知上仍較受青睞。編輯們在配對評估中,有82%更傾向於出版人類撰寫的文章。研究結論指出,雖然GPT-4能產出高品質文章,但編輯對人類內容的偏好依然明顯。 PubMed DOI

這項研究探討外科住院醫師申請審核者辨識AI生成的個人陳述的能力及其看法。研究使用ChatGPT創建三份AI陳述,並與三份成功申請的醫學生陳述比較。結果顯示,審核者正確辨識AI陳述的比例僅59%,且66.7%的人反對在個人陳述中使用AI。大多數參與者認為AI會影響他們對申請者的看法。這項研究強調了辨識AI生成內容的挑戰,並對其在住院醫師申請中的影響表示擔憂。 PubMed DOI

這項研究比較了ChatGPT的不同版本(GPT-3.5和GPT-4)在有無提示工程下,對大學物理編程作業的表現。研究分析了50份學生和50份AI生成的作業,結果顯示學生的平均得分為91.9%,明顯高於最佳AI(使用提示工程的GPT-4)的81.1%。提示工程對兩個版本的得分都有提升。評分者能準確識別作品作者,92.1%的作品被判定為人類創作,整體準確率為85.3%。這顯示AI作品雖然接近學生水準,但仍可被識別。 PubMed DOI

最近大型語言模型(如ChatGPT和Bard)在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文,並檢視其是否能與人類作品區分。 研究團隊收集了47篇學生的原創論文,並利用這些內容生成相同數量的AI論文。分析結果顯示,AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異,兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI