Comparison of Medical Research Abstracts Written by Surgical Trainees and Senior Surgeons or Generated by Large Language Models.
外科實習生與資深外科醫生撰寫的醫學研究摘要及大型語言模型生成的摘要比較。 JAMA Netw Open 2024-08-02

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月，訓練聊天機器人根據文獻創建10個摘要，並與現有摘要進行比較。五位外科醫生評審發現，AI生成的摘要與人類撰寫的質量相當，評分中位數相似。雖然版本1的評分接近評審者的評價，但版本2則偏向給予較高分數。整體而言，研究顯示AI能有效生成難以區分的醫學摘要，顯示其在醫學研究中的潛力。 PubMed DOI

Evaluating human ability to distinguish between ChatGPT-generated and original scientific abstracts.
評估人類區分 ChatGPT 生成與原創科學摘要的能力。 Updates Surg 2025-01-24

這項研究探討人類評審者在辨識ChatGPT生成的科學摘要與原始摘要的準確性。來自不列顛哥倫比亞大學的41名外科實習生和教職員參加了線上調查，結果顯示只有40%能正確識別原始摘要，而63.4%偏好AI生成的摘要。分析指出，偏好原始摘要的受訪者更容易正確識別。這顯示人類在區分AI與人類生成內容上面臨挑戰，並且對AI生成的摘要有明顯偏好，突顯了AI在學術寫作中的影響及其倫理考量。 PubMed DOI

Battle of the authors: Comparing neurosurgery articles written by humans and AI.
作者之戰：比較人類與 AI 撰寫的神經外科文章。 J Clin Neurosci 2025-02-26

這項研究比較了人類撰寫的神經外科文章與ChatGPT生成的文章，評估其品質差異。研究選取10篇文章，5篇由人類撰寫，5篇由ChatGPT撰寫，並由專家根據整體印象、可讀性等進行評估。結果顯示，兩者在整體品質上無顯著差異，但ChatGPT的可讀性較高。專家識別作者的準確率為61%，偏好幾乎相等。結論指出，ChatGPT能產出與人類相當的文章，且可讀性更佳，顯示其在學術寫作中的潛在價值。 PubMed DOI

Human Reviewers' Ability to Differentiate Human-Authored or Artificial Intelligence-Generated Medical Manuscripts: A Randomized Survey Study.
人類審稿者區分人類撰寫或人工智慧生成醫學手稿的能力：一項隨機調查研究。 Mayo Clin Proc 2025-03-09

這項研究評估人類是否能區分由人類撰寫的醫學手稿與AI生成的手稿，特別是使用ChatGPT 3.5。研究於2023年10月進行，51位醫師參與，隨機審閱三篇手稿。結果顯示，參與者識別作者的準確率不高，特異性55.6%，敏感性31.2%。高影響因子的手稿較易識別，而影響因子低的則較難。與AI互動頻率高的人更能正確識別作者。總之，研究顯示生成式AI的醫學手稿難以區分，凸顯學術出版的潛在影響及對AI內容認識的需求。 PubMed DOI

Chat GPT vs an experienced ophthalmologist: evaluating chatbot writing performance in ophthalmology.
Chat GPT 與經驗豐富的眼科醫師：評估聊天機器人在眼科寫作表現。 Eye (Lond) 2025-04-01

本研究評估了ChatGPT在眼科領域撰寫科學引言的能力，並與經驗豐富的眼科醫師進行比較。十位專家在不知情的情況下評估了ChatGPT和人類撰寫的引言，準確率為57.7%。錯誤分類率在不同子專科中差異顯著，眼整形的錯誤率最高。評估指標顯示，ChatGPT生成的引言與人類撰寫的並無顯著差異，近一半的引言無法區分。這顯示ChatGPT在眼科科學內容生成上有顯著進步，未來應探討其在學術寫作中的潛力與倫理影響。 PubMed DOI

Man Versus Machine: A Comparative Study of Human and ChatGPT-Generated Abstracts in Plastic Surgery Research.
人類與機器的對決：人類與 ChatGPT 生成的整形外科研究摘要的比較研究。 Aesthetic Plast Surg 2025-04-14

這項研究探討了ChatGPT-4在生成科學摘要方面的能力，分析了十篇來自PubMed的整形外科文章。研究使用Flesch-Kincaid年級水平和可讀性評分來評估生成的摘要。結果顯示，雖然ChatGPT生成的摘要在可讀性上略高，但評估者90%的時間偏好ChatGPT的版本，並認為其更清晰簡潔。整體來看，研究顯示ChatGPT能有效生成高品質的科學摘要，但仍需進一步研究來確認這些結果。 PubMed DOI

From Algorithms to Academia: An Endeavor to Benchmark AI-Generated Scientific Papers against Human Standards.
從演算法到學術界：以人類標準評估 AI 生成科學論文的嘗試 Arch Bone Jt Surg 2025-05-07

這項研究比較AI（ChatGPT和scite Assistant）和人類寫的科學論文，評估正確性、可讀性和被接受度。結果顯示，人類寫的論文品質最高，尤其是跟骨骨折主題。AI寫的論文內容大致正確，但引用準確度不一，ChatGPT表現較好。結論是AI能輔助科學寫作，但還是需要嚴格查證，才能確保內容正確。 PubMed DOI

Using ChatGPT to write a literature review on autologous fat grafting.
使用 ChatGPT 撰寫自體脂肪移植文獻回顧 J Plast Reconstr Aesthet Surg 2025-05-08

這篇文章評估ChatGPT-4o在撰寫整形外科文獻回顧的表現。雖然它在大綱規劃和摘要整理上表現不錯，但內容常太籠統，引用文獻也常出錯或亂編。21個參考文獻中，只有5個是真的。醫療專業人員也難分辨AI寫的摘要和真的。總之，ChatGPT能輔助寫作，但引用和內容都要再三查證。 PubMed DOI

Artificial Intelligence vs Human Authorship in Spine Surgery Fellowship Personal Statements: Can ChatGPT Outperform Applicants?
脊椎外科進修申請自傳中的人工智慧與人類作者：ChatGPT 能超越申請者嗎？ Global Spine J 2025-05-20

研究發現，脊椎外科醫師無法分辨ChatGPT和真人寫的fellowship自傳，且AI寫的自傳在可讀性和品質上表現更好，更容易獲得面試推薦。這顯示AI工具能產出高品質申請文件，也引發招生流程相關討論。 PubMed DOI

Evaluating Artificial Intelligence-Based Writing Assistance Among Published Orthopaedic Studies: Detection and Trends for Future Interpretation.
已發表骨科研究中人工智慧寫作輔助的評估：偵測與未來解讀趨勢 J Bone Joint Surg Am 2025-05-30

這項研究發現，近年約有16.7%的骨科期刊論文含有明顯AI生成內容，且不同期刊間比例不一。研究強調，隨著AI工具普及，科學出版界急需訂定明確規範和道德標準，以確保論文品質與誠信。 PubMed DOI

原始文章

站上相關主題文章列表