Evaluating Literature Reviews Conducted by Humans Versus ChatGPT: Comparative Study.
人類與 ChatGPT 進行的文獻回顧評估：比較研究。 JMIR AI 2024-08-19

這項研究探討了ChatGPT-4在文獻回顧中的有效性，特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧，並根據準確性、反應時間等標準進行比較。結果顯示，GPT-4在反應時間和知識廣度上表現優異，但在深入理解和情境相關性上較弱。研究強調，雖然GPT-4可作為初步工具，但仍需專家評估以提升學術成果的準確性和情境豐富性，特別是在醫學研究領域。 PubMed DOI

ChatGPT-4o can serve as the second rater for data extraction in systematic reviews.
ChatGPT-4o 可作為系統評價中數據提取的第二評估者。 PLoS One 2025-01-08

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果，並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示，ChatGPT-4o的數據提取準確率高達92.4%，錯誤率僅5.2%。其數據提取的重現性也很強，兩次獨立會議的協議率達94.1%，但若論文缺少資訊，這個比例會降到77.2%。總體來看，ChatGPT-4o是一個可靠的數據提取工具，未來在數據總結方面有潛力發展。 PubMed DOI

A mixed-methods study comparing human-led and ChatGPT-driven qualitative analysis in medical education research.
比較人類主導與 ChatGPT 驅動的醫學教育研究質性分析的混合方法研究。 Nagoya J Med Sci 2025-01-09

這項研究探討了ChatGPT在醫學教育質性研究中進行主題分析的應用。由於質性分析複雜且耗時，研究評估了ChatGPT的有效性並與人類分析師比較。結果顯示，ChatGPT在大多數領域表現良好，但在可轉移性和分析深度上有所不同。六個關鍵主題包括：與人類結果的相似性、正面印象、數據連結清晰、提示影響、缺乏背景描述及理論基礎。雖然ChatGPT能有效識別關鍵數據，但深入分析仍需人類參與以增強深度。 PubMed DOI

Using artificial intelligence to semi-automate trustworthiness assessment of randomized controlled trials: A case study.
使用人工智慧半自動化隨機對照試驗的可信度評估：案例研究。 J Clin Epidemiol 2025-01-19

隨機對照試驗（RCTs）對循證醫學非常重要，但有些試驗使用虛構數據，影響研究的完整性。本研究探討利用GPT-4驅動的ChatGPT來簡化RCT評估過程。透過TRACT檢查表，ChatGPT能有效處理RCT論文的PDF，並準確回答檢查項目，與人類評估者的一致性達84%。此外，ChatGPT在數據提取方面也表現出色，對三個表格達到100%準確率。未來將致力於提升ChatGPT在多個RCT中的應用，實現更高的數據捕捉準確性及自動化處理。 PubMed DOI

Chatbots for Conducting Systematic Reviews in Pediatric Dentistry.
兒童牙科系統性回顧的聊天機器人。 J Dent 2025-04-07

這項研究評估了兩個聊天機器人（ChatGPT4 和 Gemini）及兩位非專家在進行兒童牙科人工智慧的系統性回顧中的表現，並與專家進行比較。結果顯示，ChatGPT在制定PICO問題上稍勝一籌，但專家識別的記錄數量明顯高於其他組別。雖然聊天機器人在篩選和數據提取上效率高，敏感度達90%，但精確度較低。研究結論強調，人類監督對於確保準確性和完整性仍然至關重要。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

AI-assisted evidence screening method for systematic reviews in environmental research: integrating ChatGPT with domain knowledge.
環境研究中系統評價的AI輔助證據篩選方法：將ChatGPT與領域知識整合。 Environ Evid 2025-04-14

環境科學中的系統性回顧面臨挑戰，因為不同學科的方法和術語不一致，影響證據篩選的透明度和可重複性。為了解決這個問題，我們開發了一個AI輔助的證據篩選框架，並以溪流糞便大腸桿菌濃度與土地使用的關係為案例。透過微調ChatGPT-3.5 Turbo模型，我們在篩選120篇文章時，發現AI與專家之間有顯著一致性，顯示出AI在篩選中的潛力。這個框架能提高篩選效率，減少成本，並為AI在環境研究中的應用提供新方向。 PubMed DOI

Impact of large language model (ChatGPT) in healthcare: an umbrella review and evidence synthesis.
大型語言模型（ChatGPT）在醫療保健中的影響：綜合性回顧與證據統合 J Biomed Sci 2025-05-07

這篇回顧整理了17篇關於ChatGPT在醫療應用的研究，發現它在病患照護、臨床決策和醫學教育上有潛力，應用範圍廣泛。不過，目前多數研究品質普通，且在倫理、法律和準確性上還有疑慮。未來需要更完善的指引和政策，才能確保安全可靠地使用。 PubMed DOI

Evaluating the performance of artificial intelligence in summarizing pre-coded text to support evidence synthesis: a comparison between chatbots and humans.
人工智慧在摘要預先編碼文本以支援實證綜合之表現評估：聊天機器人與人類的比較 BMC Med Res Methodol 2025-05-30

這項研究發現，AI聊天機器人在醫療互動相關回顧的表現和人類一樣準確，內容更完整、脈絡解釋也更好，但回答較長。人類則較少加入新內容。ZenoChat表現最佳，顯示大型語言模型能有效協助質性研究，加快整理證據的速度。 PubMed DOI

Large language models for the Screening Step in Systematic Reviews in Dentistry.
牙科系統性文獻回顧篩選階段中大型語言模型的應用 J Dent 2025-06-06

這項研究比較五款聊天機器人在篩選AI牙齒分割相關X光文獻的表現，發現它們在篩選決策上差異很大，跟人類專家的結果也不太一致。ChatGPT-4的精確度和準確率最高，Claude-instant-100k雖然敏感度最好，但精確度最低。整體來說，這些聊天機器人的準確性和一致性都有限，還是需要人類專家來監督和確認結果。 PubMed DOI

原始文章

站上相關主題文章列表