Exploring the Intersection of Artificial Intelligence and Neurosurgery: Let us be Cautious With ChatGPT.
探索人工智慧與神經外科的交集：謹慎應對 ChatGPT。 Neurosurgery 2024-02-22

研究發現，ChatGPT提供的神經外科資訊品質尚可，但比起官方網站，回答較為簡短且不易閱讀，且缺乏參考資料和治療描述不完整。ChatGPT提供的參考資料可能不準確且虛假，使用時應謹慎。未來隨著人工智慧技術進步，或許能成為更可靠的醫學資訊來源。 PubMed DOI

Can ChatGPT outperform a neurosurgical trainee? A prospective comparative study.
ChatGPT 是否能勝過神經外科住院醫師？一項前瞻性比較研究。 Br J Neurosurg 2024-02-02

這項研究比較了一個大型語言模型ChatGPT在全國選拔面試中與人類神經外科申請者的表現。ChatGPT的表現不如人類參與者，顯示在醫療整合方面有改進的潛力。儘管目前人工智慧表現有限，但人類與AI系統之間的合作對未來醫療有希望。 PubMed DOI

Comparison of an AI-Generated Case Report With a Human-Written Case Report: Practical Considerations for AI-Assisted Medical Writing.
人工智慧生成的病例報告與人類撰寫的病例報告之比較：AI輔助醫學寫作的實際考量。 Cureus 2024-06-17

醫學界關注使用ChatGPT寫作，研究比較人類與AI生成的醫學報告。雖然ChatGPT有新奇且流暢的表現，但人類手稿在表達和微妙處更優。審稿人能辨識AI生成的稿件，但誤認人類內容為AI。需考慮AI輔助醫學寫作，提升AI在稿件創作上的應用。 PubMed DOI

Comparison of Medical Research Abstracts Written by Surgical Trainees and Senior Surgeons or Generated by Large Language Models.
外科實習生與資深外科醫生撰寫的醫學研究摘要及大型語言模型生成的摘要比較。 JAMA Netw Open 2024-08-02

這項研究評估了ChatGPT 3.5和4.0版本在生成和評分醫學研究摘要的能力。研究期間為2023年8月至2024年2月，訓練聊天機器人根據文獻創建10個摘要，並與現有摘要進行比較。五位外科醫生評審發現，AI生成的摘要與人類撰寫的質量相當，評分中位數相似。雖然版本1的評分接近評審者的評價，但版本2則偏向給予較高分數。整體而言，研究顯示AI能有效生成難以區分的醫學摘要，顯示其在醫學研究中的潛力。 PubMed DOI

Bridging the Gap: Can Large Language Models Match Human Expertise in Writing Neurosurgical Operative Notes?
彌合差距：大型語言模型能否匹配人類專家在撰寫神經外科手術記錄方面的能力？ World Neurosurg 2024-08-17

這項研究探討了人工智慧（AI）在神經外科手術文檔的應用，分析了36份手術記錄，並利用ChatGPT 4.0撰寫記錄。研究團隊評估了144份記錄，結果顯示AI生成的記錄在準確性（4.44）和組織性（4.54）上表現良好，但內容得分較低（3.73）。可讀性方面，AI記錄的複雜度較高，顯示其在提升神經外科文檔效率上有潛力，但仍需改善內容質量。 PubMed DOI

Assessing the Readability, Reliability, and Quality of AI-Modified and Generated Patient Education Materials for Endoscopic Skull Base Surgery.
評估人工智慧修改和生成的內窺鏡顱底手術病患教育材料的可讀性、可靠性和品質。 Am J Rhinol Allergy 2024-08-22

這項研究探討內視鏡顱底手術相關的線上病患教育材料的可讀性與品質，並評估ChatGPT在改善這些材料方面的潛力。雖然建議可讀性應在六年級以下，但許多現有文章仍難以理解。研究發現66篇文章中，10篇可讀性最低的經過ChatGPT修改後，Flesch可讀性指數顯著提升，從19.7增至56.9，顯示可讀性改善至10年級水平。總體而言，ChatGPT有效提升了病患教育材料的可讀性與品質，顯示其在創建和精煉內容上的潛力。 PubMed DOI

Humans-written versus ChatGPT-generated case reports.
人類撰寫的病例報告與 ChatGPT 生成的病例報告。 J Obstet Gynaecol Res 2024-09-06

這項研究探討了使用ChatGPT撰寫醫學案例報告的潛力，特別針對一個理論案例，涉及扭轉卵巢囊腫的囊腫抽吸。作者生成了四篇手稿，前三篇由ChatGPT根據不同細節撰寫，第四篇則是人類撰寫。分析顯示，隨著細節增加，手稿質量和可讀性提升，但人類手稿包含的個人經驗和見解是AI無法捕捉的。研究引發了對醫學寫作中「人性觸感」的討論，並建議進一步研究AI的有效性與適當性，鼓勵醫療專業人員思考使用ChatGPT的看法。 PubMed DOI

Artificial intelligence as a modality to enhance the readability of neurosurgical literature for patients.
人工智慧作為提升神經外科文獻可讀性的方式。 J Neurosurg 2024-11-06

這項研究評估了ChatGPT 3.5和4在創建神經外科文獻摘要的有效性。研究隨機選取150篇2023年發表的摘要，並比較其可讀性與準確性。結果顯示，兩個模型生成的摘要在可讀性上顯著優於原始摘要，GPT3.5的閱讀年級為7.80，GPT4為7.70。科學準確性方面，68.4%的GPT3.5摘要和84.2%的GPT4摘要被醫師評為中等準確性。研究指出，GPT4在改善病人教育上具有潛力，能讓神經外科文獻更易理解。 PubMed DOI

Quantifying the Scope of Artificial Intelligence-Assisted Writing in Orthopaedic Medical Literature: An Analysis of Prevalence and Validation of AI-Detection Software.
量化人工智慧輔助寫作在骨科醫學文獻中的範圍：AI 偵測軟體的普及性與驗證分析。 J Am Acad Orthop Surg 2024-11-27

這項研究探討了生成式人工智慧，特別是ChatGPT，對骨科文獻的影響，分析了AI生成文章的普遍性、AI檢測器的準確性，以及文章特徵與被判定為AI生成的可能性之間的關係。研究分析了240篇2023年後的骨科期刊文章，並發現AI檢測器能有效識別AI生成內容，但有些檢測器表現不佳。雖然AI生成文本的比例略有增加，但與期刊、文章類型或提交時間等因素並無一致關聯。結論強調需謹慎監督以維護研究完整性，並進一步發展AI檢測工具。 PubMed DOI

Human Reviewers' Ability to Differentiate Human-Authored or Artificial Intelligence-Generated Medical Manuscripts: A Randomized Survey Study.
人類審稿者區分人類撰寫或人工智慧生成醫學手稿的能力：一項隨機調查研究。 Mayo Clin Proc 2025-03-09

這項研究評估人類是否能區分由人類撰寫的醫學手稿與AI生成的手稿，特別是使用ChatGPT 3.5。研究於2023年10月進行，51位醫師參與，隨機審閱三篇手稿。結果顯示，參與者識別作者的準確率不高，特異性55.6%，敏感性31.2%。高影響因子的手稿較易識別，而影響因子低的則較難。與AI互動頻率高的人更能正確識別作者。總之，研究顯示生成式AI的醫學手稿難以區分，凸顯學術出版的潛在影響及對AI內容認識的需求。 PubMed DOI

原始文章

站上相關主題文章列表