ChatGPT-4o can serve as the second rater for data extraction in systematic reviews.
ChatGPT-4o 可作為系統評價中數據提取的第二評估者。 PLoS One 2025-01-08

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果，並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示，ChatGPT-4o的數據提取準確率高達92.4%，錯誤率僅5.2%。其數據提取的重現性也很強，兩次獨立會議的協議率達94.1%，但若論文缺少資訊，這個比例會降到77.2%。總體來看，ChatGPT-4o是一個可靠的數據提取工具，未來在數據總結方面有潛力發展。 PubMed DOI

Using artificial intelligence to semi-automate trustworthiness assessment of randomized controlled trials: A case study.
使用人工智慧半自動化隨機對照試驗的可信度評估：案例研究。 J Clin Epidemiol 2025-01-19

隨機對照試驗（RCTs）對循證醫學非常重要，但有些試驗使用虛構數據，影響研究的完整性。本研究探討利用GPT-4驅動的ChatGPT來簡化RCT評估過程。透過TRACT檢查表，ChatGPT能有效處理RCT論文的PDF，並準確回答檢查項目，與人類評估者的一致性達84%。此外，ChatGPT在數據提取方面也表現出色，對三個表格達到100%準確率。未來將致力於提升ChatGPT在多個RCT中的應用，實現更高的數據捕捉準確性及自動化處理。 PubMed DOI

Human versus artificial intelligence: evaluating ChatGPT's performance in conducting published systematic reviews with meta-analysis in chronic pain research.
人類與人工智慧：評估 ChatGPT 在慢性疼痛研究中進行已發表的系統性回顧與統合分析的表現。 Reg Anesth Pain Med 2025-02-16

這項研究評估了大型語言模型ChatGPT在系統性回顧和統合分析中的表現，特別是在脊髓刺激後情緒功能的數據上。結果顯示，ChatGPT在標題和摘要篩選的準確率為70.4%，而全文篩選的準確率為68.4%。在數據整合方面，ChatGPT的準確率達到100%。雖然在篩選任務中表現中等，但在數據整合上表現優異。研究指出，人工智慧能提升系統性回顧的效率，但仍需人類監督以確保研究質量。 PubMed DOI

Enhancing perinatal health patient information through ChatGPT - An accuracy study.
透過 ChatGPT 增強圍產期健康病患資訊的準確性研究。 PEC Innov 2025-03-03

這項研究評估了ChatGPT在「營養」和懷孕「紅旗」資訊的準確性。八位評審使用五點量表對ChatGPT的建議進行評分，結果顯示兩個主題的準確性都很高，得分均為5.0（四分位數範圍4-5）。不過，根據問題表述的不同，「懷孕中的營養」準確性為83-89%，而「懷孕中的紅旗」則為96-98%。評審間一致性良好至優秀。雖然ChatGPT提供準確建議，但女性仍需注意其局限性，特別是根據問題表述和個人情境的差異。這是首個探討AI產前健康建議準確性的研究，意義重大。 PubMed DOI

Bridging the Gap in Neonatal Care: Evaluating AI Chatbots for Chronic Neonatal Lung Disease and Home Oxygen Therapy Management.
彌補新生兒護理的差距：評估 AI 聊天機器人對慢性新生兒肺病和居家氧氣治療管理的影響。 Pediatr Pulmonol 2025-03-05

這項研究評估了八個免費的大型語言模型（LLM）在回答慢性新生兒肺病（CNLD）和居家氧氣治療（HOT）問題上的表現。共整理了二十個問題，並由三位新生兒科醫生評估這些模型的回應準確性。結果顯示，Bing Chat和Claude 3.5 Sonnet表現最佳，更新的模型如ChatGPT-4o mini和Gemini 2.0 Flash Experimental也表現不錯。雖然這些模型在提供資訊上有潛力，但仍需專家監督以避免錯誤資訊。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

Assessing the Accuracy, Completeness and Safety of ChatGPT-4o Responses on Pressure Injuries in Infants: Clinical Applications and Future Implications.
ChatGPT-4o 回應嬰兒壓力性損傷的準確性、完整性與安全性之評估：臨床應用與未來展望 Nurs Rep 2025-05-07

這項研究發現，ChatGPT-4對嬰兒壓力性損傷護理問題的回答，大多正確且安全，特別適合用於護理教育和臨床決策。不過，在醫療器材管理等主題表現較弱，建議持續更新資料，才能更可靠地應用於臨床。 PubMed DOI

Validity of ChatGPT in Assisting Diagnosis of Periventricular-Intraventricular Hemorrhage via Cranial Ultrasound Imaging in Very Preterm Infants.
ChatGPT 協助極早產兒經顱超音波影像診斷腦室周圍-腦室內出血的有效性 Cureus 2025-05-16

這項研究發現，ChatGPT-4o在判讀極早產兒腦部超音波、診斷腦室周圍-腦室內出血（PV-IVH）時，正確率達75%，非PV-IVH則有84.2%，和小兒放射科醫師的診斷有中度一致。顯示ChatGPT-4o有機會協助資源不足地區做早期篩檢，但還需要更多研究來驗證效果。 PubMed DOI

Evaluation of a large language model (ChatGPT) versus human researchers in assessing risk-of-bias and community engagement levels: a systematic review use-case analysis.
大型語言模型（ChatGPT）與人類研究人員在評估偏倚風險與社區參與程度之比較：系統性回顧案例分析 Eur J Public Health 2025-06-10

研究用兩個自訂GPT模型和人工審查者比較，評估系統性回顧的偏誤風險和參與程度。結果顯示，GPT模型的分類和人工類似，但在細節分布上有些不同，統計上沒顯著差異。雖然GPT有潛力，但還需要更多研究才能正式應用在科學實務上。 PubMed DOI

Risk of Bias Assessment of Diagnostic Accuracy Studies Using QUADAS 2 by Large Language Models.
利用大型語言模型以 QUADAS 2 進行診斷準確性研究偏倚風險評估 Diagnostics (Basel) 2025-06-26

這項研究比較了四款大型語言模型（如ChatGPT 4o、Grok 3等）和人類專家在評估診斷研究偏誤風險的表現。LLMs平均準確率約73%，Grok 3表現最好。雖然LLMs有潛力，但推理仍會出錯，暫時無法取代專家，只能當作輔助工具，還是需要專家監督。 PubMed DOI

原始文章

站上相關主題文章列表