原始文章

在2024年進行的一項研究評估了人類與人工智慧(AI)生成的論文在中風護理領域的質量。這項競賽共收到34篇論文,經《Stroke》期刊的專家審查。結果顯示,人類與AI論文的整體評分相似,但AI論文的寫作質量較高。審稿人識別作者類型的準確率僅50%,且有經驗的審稿人在區分上表現較好。研究建議科學期刊應教育審稿人關於AI的角色,並制定相關政策。 PubMed DOI


站上相關主題文章列表

LORs在學術醫學中很重要,但寫起來費時。用像ChatGPT這樣的AI工具寫LORs越來越受歡迎。研究發現學術醫師難以分辨AI和人工寫的LORs。AI可協助寫LORs,但需訂定政策以確保晉升公平。 PubMed DOI

ChatGPT是一個能夠創造類似人類寫作的語言模型,很難區分真假。研究測試人們是否能分辨AI生成的摘要和人類寫的,以及AI檢測器的準確性。骨科醫師和教授們辨識AI生成的摘要,結果喜憂參半。檢測AI內容對防止科學出版的虛假資訊至關重要,需要更多研究改進檢測方法。 PubMed DOI

這項研究比較了由一個大型語言模型(LLM)生成的摘要與人類撰寫的摘要在醫學研究領域的情境下。研究發現,根據骨科醫師的評估,LLM生成的摘要在可區分性和質量方面均不如人類撰寫的摘要。這項研究建議在醫學領域使用LLM進行科學寫作時要謹慎。 PubMed DOI

這項研究比較了在骨科和運動醫學領域中人類撰寫和人工智慧生成的科學文獻。研究人員發現,無論是專家還是AI檢測軟體都無法區分人類撰寫的文本和大型語言模型(LLMs)生成的文本。這項研究指出,需要進一步研究以了解在學術寫作中使用人工智慧的影響,並確保科學的完整性。 PubMed DOI

研究發現,審稿人經驗對區分人類和ChatGPT寫作摘要有影響。30位審稿人評估了10篇人類和10篇ChatGPT寫作的摘要,結果顯示人類摘要較易被辨識。資深審稿人辨識率高於初級審稿人和住院醫師,經驗和對人工智慧熟悉程度與辨識率有關。ChatGPT摘要有46.3%被正確辨識,與經驗豐富的審稿人相關。 PubMed DOI

研究評估了2022年《外科腫瘤學年鑑》中人類和AI生成的科學文章,結果顯示人類文章中有9.4%可能是AI生成的,而AI文章中有43.5%可能是AI生成的。這突顯了檢測器表現的不同,也凸顯了隨著AI技術進步,持續評估的重要性。 PubMed DOI

評審人員在肩膀和肘部手術領域的測試中,發現區分人工智慧生成和原創研究摘要的挑戰。他們對人工智慧生成的辨識率為62%,但有38%的原創摘要被誤認為人工智慧生成。GPTZero工具生成的摘要被認為具有較高的人工智慧概率。在抄襲檢測方面,人工智慧生成的摘要得分較低。評審人員表示區分人類和人工智慧生成的內容相當困難,不實際的數據有助於識別人工智慧生成的摘要,而寫作風格則導致原創摘要被誤認。 PubMed DOI

這項研究探討普通外科住院醫師訓練的教職員是否能區分人類與AI(如ChatGPT)撰寫的文章。研究生成了十篇文章,五篇由住院醫師撰寫,五篇由ChatGPT生成。十位教職員進行盲評,結果顯示兩組文章的得分差異不大,ChatGPT的平均得分為66.0%,人類為70.0%。教職員在識別文章來源上也面臨困難,顯示出對AI生成內容的偏見。這提醒學術界需準備面對AI在醫學教育中的影響。 PubMed DOI

這項研究評估了GPT-4撰寫放射學社論的能力,並與人類撰寫的社論進行比較。分析了來自八本期刊的十六篇社論,結果顯示AI撰寫的社論在評分上表現較好,但人類撰寫的文章在整體感知上仍較受青睞。編輯們在配對評估中,有82%更傾向於出版人類撰寫的文章。研究結論指出,雖然GPT-4能產出高品質文章,但編輯對人類內容的偏好依然明顯。 PubMed DOI

這項研究探討外科住院醫師申請審核者辨識AI生成的個人陳述的能力及其看法。研究使用ChatGPT創建三份AI陳述,並與三份成功申請的醫學生陳述比較。結果顯示,審核者正確辨識AI陳述的比例僅59%,且66.7%的人反對在個人陳述中使用AI。大多數參與者認為AI會影響他們對申請者的看法。這項研究強調了辨識AI生成內容的挑戰,並對其在住院醫師申請中的影響表示擔憂。 PubMed DOI