使用者輸入	use AI to evaluate risk of bias 2(ROB2) (時間範圍: all)
轉換句	AI tools for evaluating risk of bias 2 (ROB2) in research, how to use artificial intelligence for ROB2 assessment, automated risk of bias 2 evaluation using AI
執行時間	7.25509 秒
花費Token	154

Assessing Risk of Bias Using ChatGPT-4 and Cochrane ROB2 Tool.
使用ChatGPT-4和Cochrane ROB2工具評估偏倚風險。 Med Sci Educ / / 2024-06-18

在醫學研究中，系統性回顧至關重要但耗時費力。ChatGPT-4和自動化改變了這情況，加快了過程並提高了可靠性。ChatGPT-4是智能助手，可快速評估研究中的偏見風險，改變了這領域，潛在挽救生命。雖需人類監督，但ChatGPT-4和自動化助力下，循證醫學前景光明。 PubMed DOI

Zero- and few-shot prompting of generative large language models provides weak assessment of risk of bias in clinical trials.
生成大型語言模型的零-shot和少量提示對臨床試驗中的偏見風險評估提供了薄弱的依據。 Res Synth Methods / / 2024-08-23

這項研究探討了使用生成性大型語言模型（LLMs）來自動化醫學研究中的偏見風險評估（RoB）。研究發現，LLMs在新整理的測試數據集上的表現不如預期，F1分數僅在0.1到0.2之間，與簡單基準相似，顯示其在RoB2預測任務中的效能有限。即使在分解任務中，表現也不佳，遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI

Benchmarking Human-AI Collaboration for Common Evidence Appraisal Tools.
人類與人工智慧合作的基準測試：針對常見證據評估工具。 J Clin Epidemiol / / 2024-09-14

這項研究探討大型語言模型（LLMs）在評估科學報告及臨床試驗方法學的有效性。研究比較了LLMs與人類評審的準確率，結果顯示人類的準確率高達89%至75%，而LLMs的準確率則較低，PRISMA介於63%到70%之間。雖然結合LLM的評分能提升準確率，但仍不及人類。研究指出，人類與AI合作能提高效率，特別是在較簡單的任務上，但對於複雜的評估則效果有限。 PubMed DOI

Using artificial intelligence to semi-automate trustworthiness assessment of randomized controlled trials: A case study.
使用人工智慧半自動化隨機對照試驗的可信度評估：案例研究。 J Clin Epidemiol / / 2025-01-19

隨機對照試驗（RCTs）對循證醫學非常重要，但有些試驗使用虛構數據，影響研究的完整性。本研究探討利用GPT-4驅動的ChatGPT來簡化RCT評估過程。透過TRACT檢查表，ChatGPT能有效處理RCT論文的PDF，並準確回答檢查項目，與人類評估者的一致性達84%。此外，ChatGPT在數據提取方面也表現出色，對三個表格達到100%準確率。未來將致力於提升ChatGPT在多個RCT中的應用，實現更高的數據捕捉準確性及自動化處理。 PubMed DOI

Assessing the Decision-Making Capabilities of Artificial Intelligence Platforms as Institutional Review Board Members.
評估人工智慧平台作為機構審查委員會成員的決策能力。 J Empir Res Hum Res Ethics / / 2024-06-18

研究發現三個人工智慧平台可協助 IRB 起草 SOPs，提升審查效率。然而，仍需人類監督確保準確性。該研究測試了10個案例，顯示人工智慧在識別問題、提供指導和起草SOPs方面有潛力。 PubMed DOI

ChatGPT-4o can serve as the second rater for data extraction in systematic reviews.
ChatGPT-4o 可作為系統評價中數據提取的第二評估者。 PLoS One / / 2025-01-08

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果，並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示，ChatGPT-4o的數據提取準確率高達92.4%，錯誤率僅5.2%。其數據提取的重現性也很強，兩次獨立會議的協議率達94.1%，但若論文缺少資訊，這個比例會降到77.2%。總體來看，ChatGPT-4o是一個可靠的數據提取工具，未來在數據總結方面有潛力發展。 PubMed DOI

Language models for data extraction and risk of bias assessment in complementary medicine.
補充醫學中數據提取和偏倚風險評估的語言模型。 NPJ Digit Med / / 2025-01-31

這項研究評估大型語言模型（LLMs）在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法，如Moonshot-v1-128k和Claude-3.5-sonnet，準確率達95%以上；而LLM輔助的方法更佳，準確率可達97%以上。此外，LLM輔助的方法處理時間大幅縮短，分別只需14.7分鐘和5.9分鐘，傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示，LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI

Gender Bias in AI's Perception of Cardiovascular Risk.
AI 對心血管風險的性別偏見。 J Med Internet Res / / 2024-10-22

這項研究探討了GPT-4在評估冠狀動脈疾病風險時可能存在的性別偏見，使用了相同的臨床情境來比較男性和女性，其中一些人有精神疾病的共病情況。研究結果顯示，精神疾病的存在可能會影響GPT-4對男性和女性冠狀動脈疾病風險的評估方式。 PubMed DOI

Describing the Framework for AI Tool Assessment in Mental Health and Applying It to a Generative AI Obsessive-Compulsive Disorder Platform: Tutorial.
描述心理健康中 AI 工具評估框架並將其應用於生成式 AI 強迫症平台：教程。 JMIR Form Res / / 2024-10-18

隨著人工智慧在心理健康照護中的重要性日增，對於評估其臨床、倫理及使用者中心標準的需求也隨之上升。本文回顧了人工智慧心理健康介入的評分系統歷史，並介紹了心理健康人工智慧工具評估框架（FAITA-Mental Health），幫助使用者根據可信度、使用者體驗等關鍵標準評估相關平台。研究以OCD Coach為例，顯示該框架在實際應用中的優缺點，強調制定嚴格標準以確保人工智慧在心理健康照護中的有效性與安全性。 PubMed DOI

Evolution of Research Reporting Standards: Adapting to the Influence of Artificial Intelligence, Statistics Software, and Writing Tools.
研究報告標準的演變：適應人工智慧、統計軟體和寫作工具的影響。 J Korean Med Sci / / 2024-08-20

在健康研究中，報告標準至關重要，能提升準確性與透明度。隨著赫爾辛基宣言、CONSORT、STROBE 和 PRISMA 等倡議的推動，研究溝通變得更全面。人工智慧（AI）如 ChatGPT 的出現，改變了學術寫作，提升了文章質量，但也帶來了錯誤與透明度的擔憂。為解決這些問題，像 CONSORT-AI 和 SPIRIT-AI 等新指導方針應運而生，強調在研究中負責任地使用 AI 技術，並需跨學科合作與倫理評估，以確保科學出版的開放性與可重複性。 PubMed DOI

Education and Training Assessment and Artificial Intelligence. A Pragmatic Guide for Educators.
教育與訓練評估及人工智慧：教育工作者的務實指南。 Br J Biomed Sci / / 2025-02-20

生成式人工智慧工具如ChatGPT的興起，讓人對傳統高等教育的評估方式產生疑慮。這些工具能輕鬆完成論文和選擇題，挑戰了評估的公正性。因此，尋找替代的評估策略變得非常重要，這些策略仍能有效評估學生對基礎知識的理解和記憶。這個議題對生物醫學科學家的專業註冊及其教育者特別重要，影響也擴及整個高等教育領域。 PubMed DOI

Concordance between humans and GPT-4 in appraising the methodological quality of case reports and case series using the Murad tool.
使用 Murad 工具評估病例報告和病例系列的方法學質量時，人類與 GPT-4 之間的一致性。 BMC Med Res Methodol / / 2024-11-04

這項研究評估了人類審查者與GPT-4在評估病例報告和系列的質量一致性。研究分析了797篇2023至2024年發表的文獻，發現人類與GPT-4的評估一致性在41.91%到80.93%之間，病例選擇的問題一致性最低。無論期刊影響因子如何，一致性都相對穩定。重複分析顯示GPT-4在大多數情況下表現良好，但仍需人類監督，因為其尚未達到系統性回顧的嚴格標準。 PubMed DOI

搜尋結果