原始文章

這項研究比較了人類撰寫的神經外科文章與ChatGPT生成的文章,評估其品質差異。研究選取10篇文章,5篇由人類撰寫,5篇由ChatGPT撰寫,並由專家根據整體印象、可讀性等進行評估。結果顯示,兩者在整體品質上無顯著差異,但ChatGPT的可讀性較高。專家識別作者的準確率為61%,偏好幾乎相等。結論指出,ChatGPT能產出與人類相當的文章,且可讀性更佳,顯示其在學術寫作中的潛在價值。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月,訓練聊天機器人根據文獻創建10個摘要,並與現有摘要進行比較。五位外科醫生評審發現,AI生成的摘要與人類撰寫的質量相當,評分中位數相似。雖然版本1的評分接近評審者的評價,但版本2則偏向給予較高分數。整體而言,研究顯示AI能有效生成難以區分的醫學摘要,顯示其在醫學研究中的潛力。 PubMed DOI

這項研究探討了AI語言模型ChatGPT對科學寫作的影響,模擬發表情境,參與者包括48位醫學生、住院醫師及專家。他們評估了三個特應性皮膚炎病例報告:人類撰寫(HUM)、AI生成(AI)及合作撰寫(COM)。 主要發現顯示,專家識別準確率較高,參與者偏好AI輔助版本,且AI和COM在寫作時間上大幅減少,質量也有所提升。不過,專家指出AI的參考文獻質量較低,可能影響發表機會。研究強調人類監督對準確性及倫理的重要性,並指出AI與人類合作的潛在好處。 PubMed DOI

這項研究探討人類評審者在辨識ChatGPT生成的科學摘要與原始摘要的準確性。來自不列顛哥倫比亞大學的41名外科實習生和教職員參加了線上調查,結果顯示只有40%能正確識別原始摘要,而63.4%偏好AI生成的摘要。分析指出,偏好原始摘要的受訪者更容易正確識別。這顯示人類在區分AI與人類生成內容上面臨挑戰,並且對AI生成的摘要有明顯偏好,突顯了AI在學術寫作中的影響及其倫理考量。 PubMed DOI

這項研究評估人類是否能區分由人類撰寫的醫學手稿與AI生成的手稿,特別是使用ChatGPT 3.5。研究於2023年10月進行,51位醫師參與,隨機審閱三篇手稿。結果顯示,參與者識別作者的準確率不高,特異性55.6%,敏感性31.2%。高影響因子的手稿較易識別,而影響因子低的則較難。與AI互動頻率高的人更能正確識別作者。總之,研究顯示生成式AI的醫學手稿難以區分,凸顯學術出版的潛在影響及對AI內容認識的需求。 PubMed DOI

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性,主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示,DeepSeek-R1 的可讀性最佳,Flesch-Kincaid 分數介於 7.2 到 9.0 之間,而 ChatGPT-o3 的可讀性最低,超過 10.4。所有模型的資訊品質均低於 60,顯示出「公平」的品質,主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性,未來應整合互動元素和病患反饋,以提升準確性和可及性。 PubMed DOI

本研究評估了ChatGPT在眼科領域撰寫科學引言的能力,並與經驗豐富的眼科醫師進行比較。十位專家在不知情的情況下評估了ChatGPT和人類撰寫的引言,準確率為57.7%。錯誤分類率在不同子專科中差異顯著,眼整形的錯誤率最高。評估指標顯示,ChatGPT生成的引言與人類撰寫的並無顯著差異,近一半的引言無法區分。這顯示ChatGPT在眼科科學內容生成上有顯著進步,未來應探討其在學術寫作中的潛力與倫理影響。 PubMed DOI

這項研究探討了ChatGPT-4在生成科學摘要方面的能力,分析了十篇來自PubMed的整形外科文章。研究使用Flesch-Kincaid年級水平和可讀性評分來評估生成的摘要。結果顯示,雖然ChatGPT生成的摘要在可讀性上略高,但評估者90%的時間偏好ChatGPT的版本,並認為其更清晰簡潔。整體來看,研究顯示ChatGPT能有效生成高品質的科學摘要,但仍需進一步研究來確認這些結果。 PubMed DOI

這項研究比較AI(ChatGPT和scite Assistant)和人類寫的科學論文,評估正確性、可讀性和被接受度。結果顯示,人類寫的論文品質最高,尤其是跟骨骨折主題。AI寫的論文內容大致正確,但引用準確度不一,ChatGPT表現較好。結論是AI能輔助科學寫作,但還是需要嚴格查證,才能確保內容正確。 PubMed DOI

研究發現,脊椎外科醫師無法分辨ChatGPT和真人寫的fellowship自傳,且AI寫的自傳在可讀性和品質上表現更好,更容易獲得面試推薦。這顯示AI工具能產出高品質申請文件,也引發招生流程相關討論。 PubMed DOI

研究發現,ChatGPT-4已能寫出接近高影響力期刊標準的科學論文討論與結論段落,專家評分僅略低於人類,且多數認為大幅修訂後可發表。不過,AI仍有過度套用模式及產生錯誤或虛構文獻的疑慮。 PubMed DOI