原始文章

這項研究探討審稿人的經驗是否影響他們辨識人類撰寫與ChatGPT生成的摘要的能力。三十位審稿人被分為資深、初級和住院醫師,評估20篇摘要。結果顯示,整體正確識別率為50%,資深審稿人表現最佳,達60%。經驗和對AI的熟悉度與識別率有顯著關聯,顯示經驗在評估AI生成內容時的重要性。 PubMed DOI


站上相關主題文章列表

研究評估使用人工智慧模型ChatGPT生成臨床研究論文摘要的效果。30篇基礎研究論文透過ChatPDF生成摘要,專家評估後發現,生成摘要質量低、格式差異大、結論不正確,且與原摘要相似度低。使用ChatGPT生成摘要時,可能會有質量和準確性問題。 PubMed DOI

研究發現,審稿人經驗對區分人類和ChatGPT寫作摘要有影響。30位審稿人評估了10篇人類和10篇ChatGPT寫作的摘要,結果顯示人類摘要較易被辨識。資深審稿人辨識率高於初級審稿人和住院醫師,經驗和對人工智慧熟悉程度與辨識率有關。ChatGPT摘要有46.3%被正確辨識,與經驗豐富的審稿人相關。 PubMed DOI

研究比較人類審查員和AI檢測軟體在醫學領域摘要辨識的表現,結果顯示AI較佳但有限制。Grammarly指出原創摘要問題多於AI。建議未來醫學研究需明確AI使用指南,因AI普及需求增加。 PubMed DOI

評審人員在肩膀和肘部手術領域的測試中,發現區分人工智慧生成和原創研究摘要的挑戰。他們對人工智慧生成的辨識率為62%,但有38%的原創摘要被誤認為人工智慧生成。GPTZero工具生成的摘要被認為具有較高的人工智慧概率。在抄襲檢測方面,人工智慧生成的摘要得分較低。評審人員表示區分人類和人工智慧生成的內容相當困難,不實際的數據有助於識別人工智慧生成的摘要,而寫作風格則導致原創摘要被誤認。 PubMed DOI

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月,訓練聊天機器人根據文獻創建10個摘要,並與現有摘要進行比較。五位外科醫生評審發現,AI生成的摘要與人類撰寫的質量相當,評分中位數相似。雖然版本1的評分接近評審者的評價,但版本2則偏向給予較高分數。整體而言,研究顯示AI能有效生成難以區分的醫學摘要,顯示其在醫學研究中的潛力。 PubMed DOI

在2024年進行的一項研究評估了人類與人工智慧(AI)生成的論文在中風護理領域的質量。這項競賽共收到34篇論文,經《Stroke》期刊的專家審查。結果顯示,人類與AI論文的整體評分相似,但AI論文的寫作質量較高。審稿人識別作者類型的準確率僅50%,且有經驗的審稿人在區分上表現較好。研究建議科學期刊應教育審稿人關於AI的角色,並制定相關政策。 PubMed DOI

這項研究探討人類評審者在辨識ChatGPT生成的科學摘要與原始摘要的準確性。來自不列顛哥倫比亞大學的41名外科實習生和教職員參加了線上調查,結果顯示只有40%能正確識別原始摘要,而63.4%偏好AI生成的摘要。分析指出,偏好原始摘要的受訪者更容易正確識別。這顯示人類在區分AI與人類生成內容上面臨挑戰,並且對AI生成的摘要有明顯偏好,突顯了AI在學術寫作中的影響及其倫理考量。 PubMed DOI

這項研究探討醫療專家與人文學者在辨識醫學生與ChatGPT生成文本的能力。研究於2023年5月至8月進行,35位專家分析了兩篇醫學主題的文本,並被要求找出AI生成的部分。結果顯示,專家們在70%的情況下正確識別AI文本,兩組專家之間差異不大。雖然內容錯誤影響不大,但冗餘、重複和連貫性等風格特徵對他們的判斷至關重要。研究建議未來可在不同學術領域進一步探討,以提升辨識能力。 PubMed DOI

這項研究評估人類是否能區分由人類撰寫的醫學手稿與AI生成的手稿,特別是使用ChatGPT 3.5。研究於2023年10月進行,51位醫師參與,隨機審閱三篇手稿。結果顯示,參與者識別作者的準確率不高,特異性55.6%,敏感性31.2%。高影響因子的手稿較易識別,而影響因子低的則較難。與AI互動頻率高的人更能正確識別作者。總之,研究顯示生成式AI的醫學手稿難以區分,凸顯學術出版的潛在影響及對AI內容認識的需求。 PubMed DOI

這項研究探討了如何區分人類撰寫的摘要與ChatGPT生成的摘要,分析了160篇摘要,並使用了三種AI檢測工具和一個抄襲檢測器。研究發現,所有方法對摘要來源的判斷都有誤,學者的經驗影響檢測準確性,資深學者表現最佳。GPTZero和相似性檢測器在識別來源上特別有效。研究建議人類專家與AI工具合作,能提升識別學術摘要的準確性。 PubMed DOI