From Revisions to Insights: Converting Radiology Report Revisions into Actionable Educational Feedback Using Generative AI Models.
從修訂到洞察：利用生成式 AI 模型將放射學報告修訂轉化為可行的教育反饋。 J Imaging Inform Med 2024-08-19

這項研究顯示生成式人工智慧，特別是OpenAI的GPT-4 Turbo API，在提升放射學訓練方面的潛力。研究發現，這個AI模型能檢測到的差異明顯多於專業放射科醫師，顯示其在傳統審查中可能被忽略的改進空間。雖然AI在差異檢測上表現優異，但在評分一致性上仍有改進空間。生成的教學要點在85%的案例中被認為適當，顯示其教育價值。未來研究可著重於提高模型準確性及評分者一致性，並探討AI反饋對實習生的長期影響。 PubMed DOI

Reviewer Experience Detecting and Judging Human Versus Artificial Intelligence Content: The <i>Stroke</i> Journal Essay Contest.
人類與人工智慧內容的檢測與評估經驗：<i>Stroke</i> 期刊論文比賽。 Stroke 2024-09-03

在2024年進行的一項研究評估了人類與人工智慧（AI）生成的論文在中風護理領域的質量。這項競賽共收到34篇論文，經《Stroke》期刊的專家審查。結果顯示，人類與AI論文的整體評分相似，但AI論文的寫作質量較高。審稿人識別作者類型的準確率僅50%，且有經驗的審稿人在區分上表現較好。研究建議科學期刊應教育審稿人關於AI的角色，並制定相關政策。 PubMed DOI

Large-Scale Validation of the Feasibility of GPT-4 as a Proofreading Tool for Head CT Reports.
GPT-4 作為頭部 CT 報告校對工具的可行性大規模驗證。 Radiology 2025-01-28

這項研究探討了GPT-4在放射科報告中檢測和修正錯誤的潛力，特別針對頭部CT掃描。隨著放射科醫師的工作壓力增加，GPT-4在錯誤檢測方面表現優異，解釋性錯誤敏感度達84%，事實性錯誤敏感度達89%。相比之下，人類讀者的表現較差，檢查時間也較長。雖然GPT-4在識別錯誤時有些假陽性，但仍顯示出其在減輕醫師負擔和提升準確度的潛力，值得在臨床實踐中進一步探索。 PubMed DOI

Differentiating between GPT-generated and human-written feedback for radiology residents.
區分 GPT 生成的與人類撰寫的放射科住院醫師反饋。 Curr Probl Diagn Radiol 2025-02-21

這項研究探討了GPT-3.5在為放射科住院醫師生成回饋的有效性，並與人類撰寫的評論進行比較。隨著加拿大放射科課程實施能力為基礎的醫學教育，對敘述性回饋的需求增加。研究分析了28位教職員對10位住院醫師的110條評論，發現人類撰寫的回饋通常較長且具體，而GPT生成的評論則較模糊。人類評分者的準確率為80.5%，而GPT-3.5僅50%。結果顯示，GPT-3.5尚無法達到人類回饋的具體性，未來需改進算法以提升AI回饋質量。 PubMed DOI

Battle of the authors: Comparing neurosurgery articles written by humans and AI.
作者之戰：比較人類與 AI 撰寫的神經外科文章。 J Clin Neurosci 2025-02-26

這項研究比較了人類撰寫的神經外科文章與ChatGPT生成的文章，評估其品質差異。研究選取10篇文章，5篇由人類撰寫，5篇由ChatGPT撰寫，並由專家根據整體印象、可讀性等進行評估。結果顯示，兩者在整體品質上無顯著差異，但ChatGPT的可讀性較高。專家識別作者的準確率為61%，偏好幾乎相等。結論指出，ChatGPT能產出與人類相當的文章，且可讀性更佳，顯示其在學術寫作中的潛在價值。 PubMed DOI

Detecting Artificial Intelligence-Generated Versus Human-Written Medical Student Essays: Semirandomized Controlled Study.
檢測人工智慧生成與人類撰寫的醫學生論文：半隨機對照研究。 JMIR Med Educ 2025-03-07

這項研究探討醫療專家與人文學者在辨識醫學生與ChatGPT生成文本的能力。研究於2023年5月至8月進行，35位專家分析了兩篇醫學主題的文本，並被要求找出AI生成的部分。結果顯示，專家們在70%的情況下正確識別AI文本，兩組專家之間差異不大。雖然內容錯誤影響不大，但冗餘、重複和連貫性等風格特徵對他們的判斷至關重要。研究建議未來可在不同學術領域進一步探討，以提升辨識能力。 PubMed DOI

Human Reviewers' Ability to Differentiate Human-Authored or Artificial Intelligence-Generated Medical Manuscripts: A Randomized Survey Study.
人類審稿者區分人類撰寫或人工智慧生成醫學手稿的能力：一項隨機調查研究。 Mayo Clin Proc 2025-03-09

這項研究評估人類是否能區分由人類撰寫的醫學手稿與AI生成的手稿，特別是使用ChatGPT 3.5。研究於2023年10月進行，51位醫師參與，隨機審閱三篇手稿。結果顯示，參與者識別作者的準確率不高，特異性55.6%，敏感性31.2%。高影響因子的手稿較易識別，而影響因子低的則較難。與AI互動頻率高的人更能正確識別作者。總之，研究顯示生成式AI的醫學手稿難以區分，凸顯學術出版的潛在影響及對AI內容認識的需求。 PubMed DOI

GPT-4 versus human authors in clinically complex MCQ creation: A blinded analysis of item quality.
GPT-4 與人類作者在臨床複雜選擇題命題上的比較：題目品質的盲性分析 Med Teach 2025-05-29

研究發現，GPT-4產生的醫學選擇題品質大致接近專家水準，但錯誤率較高，像是答案標示錯或選項排列不當。雖然AI能寫出高品質題目，仍需專家審核把關，確保正確性與品質。 PubMed DOI

Can artificial intelligence generate scientific discussion that passes peer review for publication in a high-impact orthopaedic journal?
人工智慧能否產生通過同儕審查、可於高影響力骨科期刊發表的科學討論？ Ir J Med Sci 2025-06-12

研究發現，ChatGPT-4已能寫出接近高影響力期刊標準的科學論文討論與結論段落，專家評分僅略低於人類，且多數認為大幅修訂後可發表。不過，AI仍有過度套用模式及產生錯誤或虛構文獻的疑慮。 PubMed DOI

GPT-4 vs. Radiologists: who advances mediastinal tumor classification better across report quality levels? A cohort study.
GPT-4 vs. 放射科醫師：誰能在不同報告品質層級下更好地推進縱膈腫瘤分類？一項世代研究 Int J Surg 2025-08-11

這項研究發現，GPT-4在判讀胸部CT報告、分類縱膈腫瘤的準確率達73.3%，跟資深放射科醫師差不多。特別是在報告品質較差或診斷淋巴瘤時，GPT-4表現甚至更好。顯示GPT-4未來有機會協助醫師處理較難或資訊不足的病例。 PubMed DOI

原始文章

站上相關主題文章列表