原始文章

這項研究探討了困惑度分數在區分人類撰寫與AI生成的放射學摘要的有效性,並評估了不同AI檢測工具的表現。研究人員從PubMed選取了50篇與「神經影像學」和「血管造影」相關的英文開放存取文章,並創建了AI生成的摘要。結果顯示,人類撰寫的摘要困惑度分數較高,而AI生成的較低,且某些AI檢測工具的準確率差異顯著。這些結果顯示困惑度分數可能有助於識別AI生成內容,但仍需進一步研究。 PubMed DOI


站上相關主題文章列表

研究評估使用人工智慧模型ChatGPT生成臨床研究論文摘要的效果。30篇基礎研究論文透過ChatPDF生成摘要,專家評估後發現,生成摘要質量低、格式差異大、結論不正確,且與原摘要相似度低。使用ChatGPT生成摘要時,可能會有質量和準確性問題。 PubMed DOI

研究比較人類審查員和AI檢測軟體在醫學領域摘要辨識的表現,結果顯示AI較佳但有限制。Grammarly指出原創摘要問題多於AI。建議未來醫學研究需明確AI使用指南,因AI普及需求增加。 PubMed DOI

研究評估了2022年《外科腫瘤學年鑑》中人類和AI生成的科學文章,結果顯示人類文章中有9.4%可能是AI生成的,而AI文章中有43.5%可能是AI生成的。這突顯了檢測器表現的不同,也凸顯了隨著AI技術進步,持續評估的重要性。 PubMed DOI

這項研究評估了基於人工智慧的聊天機器人ChatPDF在生成學術精神醫學文章摘要的效果。研究人員提供了30篇論文,要求聊天機器人創建摘要,並將其與《精神醫學研究》的10篇摘要進行比較。結果顯示,AI生成的摘要在相似性和抄襲率上都很低,但結構化摘要的準確率僅有40%,非結構化摘要則為73%。專家指出,約30%的AI生成結論是錯誤的。總體來看,雖然ChatPDF能有效組織資訊,但對生成摘要的準確性仍需謹慎評估。 PubMed DOI

這項研究評估了GPT-4撰寫放射學社論的能力,並與人類撰寫的社論進行比較。分析了來自八本期刊的十六篇社論,結果顯示AI撰寫的社論在評分上表現較好,但人類撰寫的文章在整體感知上仍較受青睞。編輯們在配對評估中,有82%更傾向於出版人類撰寫的文章。研究結論指出,雖然GPT-4能產出高品質文章,但編輯對人類內容的偏好依然明顯。 PubMed DOI

這項研究探討了在足踝外科領域中,醫生能否區分由人工智慧(特別是ChatGPT 3.0)生成的摘要與人類撰寫的摘要。研究中,九位醫生參加了盲測,結果顯示他們的準確率僅為50.5%,幾乎等同於隨機猜測。評審者的經驗和對人工智慧的熟悉度對準確性影響不大,且評審者之間的可靠性隨時間下降。這顯示人工智慧生成的摘要與人類撰寫的相似度高,讓識別變得困難。 PubMed DOI

這項研究探討人類評審者在辨識ChatGPT生成的科學摘要與原始摘要的準確性。來自不列顛哥倫比亞大學的41名外科實習生和教職員參加了線上調查,結果顯示只有40%能正確識別原始摘要,而63.4%偏好AI生成的摘要。分析指出,偏好原始摘要的受訪者更容易正確識別。這顯示人類在區分AI與人類生成內容上面臨挑戰,並且對AI生成的摘要有明顯偏好,突顯了AI在學術寫作中的影響及其倫理考量。 PubMed DOI

這項研究探討醫療專家與人文學者在辨識醫學生與ChatGPT生成文本的能力。研究於2023年5月至8月進行,35位專家分析了兩篇醫學主題的文本,並被要求找出AI生成的部分。結果顯示,專家們在70%的情況下正確識別AI文本,兩組專家之間差異不大。雖然內容錯誤影響不大,但冗餘、重複和連貫性等風格特徵對他們的判斷至關重要。研究建議未來可在不同學術領域進一步探討,以提升辨識能力。 PubMed DOI

這項研究評估人類是否能區分由人類撰寫的醫學手稿與AI生成的手稿,特別是使用ChatGPT 3.5。研究於2023年10月進行,51位醫師參與,隨機審閱三篇手稿。結果顯示,參與者識別作者的準確率不高,特異性55.6%,敏感性31.2%。高影響因子的手稿較易識別,而影響因子低的則較難。與AI互動頻率高的人更能正確識別作者。總之,研究顯示生成式AI的醫學手稿難以區分,凸顯學術出版的潛在影響及對AI內容認識的需求。 PubMed DOI

這項研究探討了如何區分人類撰寫的摘要與ChatGPT生成的摘要,分析了160篇摘要,並使用了三種AI檢測工具和一個抄襲檢測器。研究發現,所有方法對摘要來源的判斷都有誤,學者的經驗影響檢測準確性,資深學者表現最佳。GPTZero和相似性檢測器在識別來源上特別有效。研究建議人類專家與AI工具合作,能提升識別學術摘要的準確性。 PubMed DOI