搜尋結果

使用者輸入 use AI to evaluate risk of bias 2(ROB2) (時間範圍: all)
轉換句 AI tools for evaluating risk of bias 2 (ROB2) in research, how to use artificial intelligence for ROB2 assessment, automated risk of bias 2 evaluation using AI
執行時間 7.25509 秒
花費Token 154
Artificial intelligence generated clinical score sheets: looking at the two faces of Janus.
人工智慧生成的臨床評分表:看珠諾斯的兩面。 Lab Anim Res / / 2024-05-15

在動物實驗中,使用臨床評分表評估痛苦程度。人工智慧在臨床前研究中愈來愈常見,包括製作動物福利評估表。一研究比較三種大型語言模型在創建評分表的表現。雖然模型能有效輸出,但在症狀值分配和閾值定義上有差異。專業審查對確保AI工具在研究中精確可靠至關重要。 PubMed DOI

Assessing Risk of Bias Using ChatGPT-4 and Cochrane ROB2 Tool.
使用ChatGPT-4和Cochrane ROB2工具評估偏倚風險。 Med Sci Educ / / 2024-06-18

在醫學研究中,系統性回顧至關重要但耗時費力。ChatGPT-4和自動化改變了這情況,加快了過程並提高了可靠性。ChatGPT-4是智能助手,可快速評估研究中的偏見風險,改變了這領域,潛在挽救生命。雖需人類監督,但ChatGPT-4和自動化助力下,循證醫學前景光明。 PubMed DOI

Integrating large language models in systematic reviews: a framework and case study using ROBINS-I for risk of bias assessment.
將此醫學文章的標題翻譯為繁體中文:「將大型語言模型整合到系統性評論中:以 ROBINS-I 進行偏倚風險評估的框架和案例研究。」 BMJ Evid Based Med / / 2024-02-21

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性,提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告,並確定了評論的任務類型。雖然模型有潛力,但研究結果顯示仍需人類審查輸入。 PubMed DOI

Assessing the Risk of Bias in Randomized Clinical Trials With Large Language Models.
使用大型語言模型評估隨機臨床試驗的偏倚風險。 JAMA Netw Open / / 2024-05-22

這項研究探討使用大型語言模型(LLMs)來評估隨機臨床試驗(RCTs)中的偏見風險。兩個LLMs在30個RCTs上進行測試,顯示高正確評估率。LLM 2的準確度略高於LLM 1。這兩個模型在評估RCTs時表現出良好的一致性和效率,顯示它們在系統性回顧過程中具有潛力作為支援工具。 PubMed DOI

Zero- and few-shot prompting of generative large language models provides weak assessment of risk of bias in clinical trials.
生成大型語言模型的零-shot和少量提示對臨床試驗中的偏見風險評估提供了薄弱的依據。 Res Synth Methods / / 2024-08-23

這項研究探討了使用生成性大型語言模型(LLMs)來自動化醫學研究中的偏見風險評估(RoB)。研究發現,LLMs在新整理的測試數據集上的表現不如預期,F1分數僅在0.1到0.2之間,與簡單基準相似,顯示其在RoB2預測任務中的效能有限。即使在分解任務中,表現也不佳,遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI

Benchmarking Human-AI Collaboration for Common Evidence Appraisal Tools.
人類與人工智慧合作的基準測試:針對常見證據評估工具。 J Clin Epidemiol / / 2024-09-14

這項研究探討大型語言模型(LLMs)在評估科學報告及臨床試驗方法學的有效性。研究比較了LLMs與人類評審的準確率,結果顯示人類的準確率高達89%至75%,而LLMs的準確率則較低,PRISMA介於63%到70%之間。雖然結合LLM的評分能提升準確率,但仍不及人類。研究指出,人類與AI合作能提高效率,特別是在較簡單的任務上,但對於複雜的評估則效果有限。 PubMed DOI

Using artificial intelligence to semi-automate trustworthiness assessment of randomized controlled trials: A case study.
使用人工智慧半自動化隨機對照試驗的可信度評估:案例研究。 J Clin Epidemiol / / 2025-01-19

隨機對照試驗(RCTs)對循證醫學非常重要,但有些試驗使用虛構數據,影響研究的完整性。本研究探討利用GPT-4驅動的ChatGPT來簡化RCT評估過程。透過TRACT檢查表,ChatGPT能有效處理RCT論文的PDF,並準確回答檢查項目,與人類評估者的一致性達84%。此外,ChatGPT在數據提取方面也表現出色,對三個表格達到100%準確率。未來將致力於提升ChatGPT在多個RCT中的應用,實現更高的數據捕捉準確性及自動化處理。 PubMed DOI

Measuring the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized Clinical Vignette Survey Study.
衡量人工智慧在住院患者診斷中的影響:一項隨機臨床案例調查研究。 JAMA / / 2024-02-27

研究發現,AI模型對醫師診斷急性呼吸衰竭有影響。看標準AI模型醫師表現較好,但看偏見AI模型表現下降。即使有解釋,偏見AI模型也無法改善。標準AI提升準確性,偏見AI則降低。 PubMed DOI

Assessing the Decision-Making Capabilities of Artificial Intelligence Platforms as Institutional Review Board Members.
評估人工智慧平台作為機構審查委員會成員的決策能力。 J Empir Res Hum Res Ethics / / 2024-06-18

研究發現三個人工智慧平台可協助 IRB 起草 SOPs,提升審查效率。然而,仍需人類監督確保準確性。該研究測試了10個案例,顯示人工智慧在識別問題、提供指導和起草SOPs方面有潛力。 PubMed DOI

ChatGPT-4o can serve as the second rater for data extraction in systematic reviews.
ChatGPT-4o 可作為系統評價中數據提取的第二評估者。 PLoS One / / 2025-01-08

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果,並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示,ChatGPT-4o的數據提取準確率高達92.4%,錯誤率僅5.2%。其數據提取的重現性也很強,兩次獨立會議的協議率達94.1%,但若論文缺少資訊,這個比例會降到77.2%。總體來看,ChatGPT-4o是一個可靠的數據提取工具,未來在數據總結方面有潛力發展。 PubMed DOI

Language models for data extraction and risk of bias assessment in complementary medicine.
補充醫學中數據提取和偏倚風險評估的語言模型。 NPJ Digit Med / / 2025-01-31

這項研究評估大型語言模型(LLMs)在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法,如Moonshot-v1-128k和Claude-3.5-sonnet,準確率達95%以上;而LLM輔助的方法更佳,準確率可達97%以上。此外,LLM輔助的方法處理時間大幅縮短,分別只需14.7分鐘和5.9分鐘,傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示,LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI

Validation of the Quality Analysis of Medical Artificial Intelligence (QAMAI) tool: a new tool to assess the quality of health information provided by AI platforms.
醫學人工智慧品質分析(QAMAI)工具的驗證:評估AI平台提供的健康資訊品質的新工具。 Eur Arch Otorhinolaryngol / / 2024-05-04

這項研究開發並驗證了醫療人工智慧質量評估(QAMAI)工具,用來評估AI平台提供的健康資訊的品質。該工具在評估ChatGPT4提供的資訊時顯示出高可靠性和效度。這個工具對醫師來說可能很有價值,因為病人轉向AI平台尋求醫療資訊。 PubMed DOI

Leveraging artificial intelligence to detect ethical concerns in medical research: a case study.
運用人工智慧檢測醫學研究中的道德顧慮:案例研究。 J Med Ethics / / 2024-02-26

審查委員會(IRB)因為工作人員經驗不足,被批評批准研究計畫時出現延遲。研究指出,大型語言模型(LLMs)有助於提升IRB成員的審查效率。四個LLMs在案例研究中被測試,顯示在評估資格、易受傷害性、知情同意、風險效益分析和安慰劑使用等方面具有潛力。雖然LLMs在某些方面遇到困難,但在多次提示下有所改善。總的來說,LLMs有助於識別研究中的倫理關切並提高IRB的效率。 PubMed DOI

Between human and AI: assessing the reliability of AI text detection tools.
人類與人工智慧之間:評估AI文本檢測工具的可靠性。 Curr Med Res Opin / / 2024-02-28

研究比較了辨識ChatGPT-4和人類寫作的工具,發現各工具表現不同,尤其在辨識「原創性」方面更有挑戰。研究指出必須改進檢測工具,確保內容真實性,特別是在學術領域,避免混淆人工智慧和人類寫作。 PubMed DOI

Gender Bias in AI's Perception of Cardiovascular Risk.
AI 對心血管風險的性別偏見。 J Med Internet Res / / 2024-10-22

這項研究探討了GPT-4在評估冠狀動脈疾病風險時可能存在的性別偏見,使用了相同的臨床情境來比較男性和女性,其中一些人有精神疾病的共病情況。研究結果顯示,精神疾病的存在可能會影響GPT-4對男性和女性冠狀動脈疾病風險的評估方式。 PubMed DOI

Evaluation of information from artificial intelligence on rotator cuff repair surgery.
人工智慧在旋轉袖修復手術資訊的評估。 JSES Int / / 2024-02-06

研究分析了線上人工智慧軟體提供的旋轉袖修復手術資訊品質和易讀性。結果顯示資訊品質高,但缺乏來源引用,可靠性有疑慮。易讀性則優於建議年級水準。建議使用者諮詢骨科外科醫師以獲得更好的結果。 PubMed DOI

Describing the Framework for AI Tool Assessment in Mental Health and Applying It to a Generative AI Obsessive-Compulsive Disorder Platform: Tutorial.
描述心理健康中 AI 工具評估框架並將其應用於生成式 AI 強迫症平台:教程。 JMIR Form Res / / 2024-10-18

隨著人工智慧在心理健康照護中的重要性日增,對於評估其臨床、倫理及使用者中心標準的需求也隨之上升。本文回顧了人工智慧心理健康介入的評分系統歷史,並介紹了心理健康人工智慧工具評估框架(FAITA-Mental Health),幫助使用者根據可信度、使用者體驗等關鍵標準評估相關平台。研究以OCD Coach為例,顯示該框架在實際應用中的優缺點,強調制定嚴格標準以確保人工智慧在心理健康照護中的有效性與安全性。 PubMed DOI

Evolution of Research Reporting Standards: Adapting to the Influence of Artificial Intelligence, Statistics Software, and Writing Tools.
研究報告標準的演變:適應人工智慧、統計軟體和寫作工具的影響。 J Korean Med Sci / / 2024-08-20

在健康研究中,報告標準至關重要,能提升準確性與透明度。隨著赫爾辛基宣言、CONSORT、STROBE 和 PRISMA 等倡議的推動,研究溝通變得更全面。人工智慧(AI)如 ChatGPT 的出現,改變了學術寫作,提升了文章質量,但也帶來了錯誤與透明度的擔憂。為解決這些問題,像 CONSORT-AI 和 SPIRIT-AI 等新指導方針應運而生,強調在研究中負責任地使用 AI 技術,並需跨學科合作與倫理評估,以確保科學出版的開放性與可重複性。 PubMed DOI

Education and Training Assessment and Artificial Intelligence. A Pragmatic Guide for Educators.
教育與訓練評估及人工智慧:教育工作者的務實指南。 Br J Biomed Sci / / 2025-02-20

生成式人工智慧工具如ChatGPT的興起,讓人對傳統高等教育的評估方式產生疑慮。這些工具能輕鬆完成論文和選擇題,挑戰了評估的公正性。因此,尋找替代的評估策略變得非常重要,這些策略仍能有效評估學生對基礎知識的理解和記憶。這個議題對生物醫學科學家的專業註冊及其教育者特別重要,影響也擴及整個高等教育領域。 PubMed DOI

Concordance between humans and GPT-4 in appraising the methodological quality of case reports and case series using the Murad tool.
使用 Murad 工具評估病例報告和病例系列的方法學質量時,人類與 GPT-4 之間的一致性。 BMC Med Res Methodol / / 2024-11-04

這項研究評估了人類審查者與GPT-4在評估病例報告和系列的質量一致性。研究分析了797篇2023至2024年發表的文獻,發現人類與GPT-4的評估一致性在41.91%到80.93%之間,病例選擇的問題一致性最低。無論期刊影響因子如何,一致性都相對穩定。重複分析顯示GPT-4在大多數情況下表現良好,但仍需人類監督,因為其尚未達到系統性回顧的嚴格標準。 PubMed DOI