搜尋結果

使用者輸入 用 LLM 來評估 risk of bias (時間範圍: all)
轉換句 LLM for assessing risk of bias in research, using large language models to evaluate bias risk, how to implement LLM in bias risk assessment
執行時間 4.44397 秒
花費Token 133
Assessing the Risk of Bias in Randomized Clinical Trials With Large Language Models.
使用大型語言模型評估隨機臨床試驗的偏倚風險。 JAMA Netw Open / / 2024-05-22

這項研究探討使用大型語言模型(LLMs)來評估隨機臨床試驗(RCTs)中的偏見風險。兩個LLMs在30個RCTs上進行測試,顯示高正確評估率。LLM 2的準確度略高於LLM 1。這兩個模型在評估RCTs時表現出良好的一致性和效率,顯示它們在系統性回顧過程中具有潛力作為支援工具。 PubMed DOI

Zero- and few-shot prompting of generative large language models provides weak assessment of risk of bias in clinical trials.
生成大型語言模型的零-shot和少量提示對臨床試驗中的偏見風險評估提供了薄弱的依據。 Res Synth Methods / / 2024-08-23

這項研究探討了使用生成性大型語言模型(LLMs)來自動化醫學研究中的偏見風險評估(RoB)。研究發現,LLMs在新整理的測試數據集上的表現不如預期,F1分數僅在0.1到0.2之間,與簡單基準相似,顯示其在RoB2預測任務中的效能有限。即使在分解任務中,表現也不佳,遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI

Integrating large language models in systematic reviews: a framework and case study using ROBINS-I for risk of bias assessment.
將此醫學文章的標題翻譯為繁體中文:「將大型語言模型整合到系統性評論中:以 ROBINS-I 進行偏倚風險評估的框架和案例研究。」 BMJ Evid Based Med / / 2024-02-21

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性,提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告,並確定了評論的任務類型。雖然模型有潛力,但研究結果顯示仍需人類審查輸入。 PubMed DOI

Benchmarking Human-AI Collaboration for Common Evidence Appraisal Tools.
人類與人工智慧合作的基準測試:針對常見證據評估工具。 J Clin Epidemiol / / 2024-09-14

這項研究探討大型語言模型(LLMs)在評估科學報告及臨床試驗方法學的有效性。研究比較了LLMs與人類評審的準確率,結果顯示人類的準確率高達89%至75%,而LLMs的準確率則較低,PRISMA介於63%到70%之間。雖然結合LLM的評分能提升準確率,但仍不及人類。研究指出,人類與AI合作能提高效率,特別是在較簡單的任務上,但對於複雜的評估則效果有限。 PubMed DOI

Assessing Risk of Bias Using ChatGPT-4 and Cochrane ROB2 Tool.
使用ChatGPT-4和Cochrane ROB2工具評估偏倚風險。 Med Sci Educ / / 2024-06-18

在醫學研究中,系統性回顧至關重要但耗時費力。ChatGPT-4和自動化改變了這情況,加快了過程並提高了可靠性。ChatGPT-4是智能助手,可快速評估研究中的偏見風險,改變了這領域,潛在挽救生命。雖需人類監督,但ChatGPT-4和自動化助力下,循證醫學前景光明。 PubMed DOI

Debiasing large language models: research opportunities.
大型語言模型去偏見化:研究機會。 J R Soc N Z / / 2024-12-16

這篇論文指出大型語言模型(LLMs)在醫療、金融和交通等領域的重要性,同時也提到訓練數據和社會影響所帶來的偏見挑戰。研究強調需要針對偏見檢測和減輕的研究,特別是在像紐西蘭這樣的弱勢地區。它評估了紐西蘭現有的偏見指標和去偏見技術,找出研究空白,並討論了當前的努力,還提出了未來針對紐西蘭獨特文化和社會環境的研究機會。 PubMed DOI

Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見:對大型語言模型生成的新聞進行檢驗。 Sci Rep / / 2024-03-07

LLMs透過AIGC改變生活,但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見,歧視女性、黑人。ChatGPT偏見最少,且能拒絕有偏見提示。 PubMed DOI

Integrating randomized controlled trials and non-randomized studies of interventions to assess the effect of rare events: a Bayesian re-analysis of two meta-analyses.
整合隨機對照試驗與非隨機介入研究以評估稀有事件的影響:對兩項統合分析的貝葉斯再分析。 BMC Med Res Methodol / / 2024-09-28

這項研究探討如何在針對罕見事件的統合分析中,整合非隨機干預研究(NRSIs)與隨機對照試驗(RCTs)。研究強調處理潛在偏差的重要性,並提出貝葉斯權力先驗方法來降低NRSIs的權重。進行了兩項統合分析,分別檢視SGLT-2抑制劑與糖尿病酮症酸中毒(DKA)風險,以及低劑量甲氨蝶呤與黑色素瘤的關聯。結果顯示,納入NRSIs後,DKA和黑色素瘤的風險顯著增加,強調了評估NRSIs偏差的必要性。 PubMed DOI

Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial.
大型語言模型對診斷推理的影響:一項隨機臨床試驗。 JAMA Netw Open / / 2024-10-28

這項研究評估大型語言模型(LLM)對醫師診斷推理的影響,與傳統資源相比。研究於2023年11月29日至12月29日進行,參與者來自多所學術機構的醫師,分為兩組:一組使用LLM和傳統資源,另一組僅用傳統資源。結果顯示,LLM組的中位診斷推理分數為76%,略高於傳統組的74%,但差異不顯著(P = .60)。不過,LLM的單獨表現比傳統資源高出16個百分點(P = .03),顯示人工智慧在臨床實踐中的潛力。 PubMed DOI

Use of a Large Language Model to Assess Clinical Acuity of Adults in the Emergency Department.
使用大型語言模型評估急診室成年人臨床嚴重程度。 JAMA Netw Open / / 2024-05-07

研究發現大型語言模型在緊急室評估臨床嚴重程度時表現優異,準確率高達89%,比起人類分類更準確。LLM表現與部分醫師評審相當,顯示將其整合到緊急室工作流程可能有助於改善分流流程,並不影響質量。這項研究結果指出在這個領域還有進一步研究的必要。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med / / 2024-10-21

隨著大型語言模型(LLMs)在醫學考試中表現優異,對其在醫學領域的應用興趣逐漸增加。然而,這些考試無法真實反映醫生與病人之間的複雜互動,特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此,我們創建了BiasMedQA數據集,包含1,273個修改過的USMLE問題,並評估了六個LLMs。結果顯示,GPT-4對偏見的抵抗力較強,而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性,以提供更可靠的醫療結果。 PubMed DOI

Unmasking and Quantifying Racial Bias of Large Language Models in Medical Report Generation.
揭示和量化大型語言模型在醫學報告生成中的種族偏見。 ArXiv / / 2024-03-06

大型語言模型如GPT-3.5-turbo和GPT-4在醫療保健領域有潛力,但可能受到訓練時的偏見影響,影響其在醫療環境中的實用性。研究指出,這些模型可能對白人族群預測較高的醫療成本和較長的住院時間,並對困難醫療情況下的存活率持過於樂觀的看法。未來需研究減少語言模型中的偏見,特別是在醫療保健領域,確保對所有患者公平且準確評估。 PubMed DOI

Title and abstract screening for literature reviews using large language models: an exploratory study in the biomedical domain.
使用大型語言模型進行文獻回顧的標題和摘要篩選:生物醫學領域的探索性研究。 Syst Rev / / 2024-06-15

利用大型語言模型(LLMs)自動篩選相關出版物進行文獻回顧是有潛力但複雜的任務。已開發Python腳本,利用LLMs評估出版物相關性。不同LLMs在不同數據集上表現不同,靈敏度/特異性範圍從81.93%/75.19%到97.58%/19.12%。修改設置如提示結構和Likert量表範圍,對性能有顯著影響。LLMs的分類器或許可用於評估出版物相關性,但在系統性文獻回顧和更廣泛影響方面的應用尚不確定。未來研究可能會更廣泛地採用LLMs來評估出版物。 PubMed DOI

Large language models display human-like social desirability biases in Big Five personality surveys.
大型語言模型在五大人格調查中顯示出類似人類的社會期望偏見。 PNAS Nexus / / 2024-12-18

這項研究指出大型語言模型(LLMs),如GPT-4、Claude 3、Llama 3和PaLM-2,在五大人格測評中存在明顯的社會期望偏誤。研究發現,當模型感受到被評估時,會調整回應以顯得更理想。這種偏誤在所有測試的模型中都有觀察到,且新版本的模型效果更明顯,例如GPT-4的回應偏移達1.20個標準差。即使隨機化問題順序或改寫問題,偏誤仍然存在,顯示這不僅是順從偏誤。雖然反向編碼問題能減少偏誤,但無法完全消除,顯示LLMs在心理測量及作為人類參與者替代品方面仍有局限。 PubMed DOI

Cost, Usability, Credibility, Fairness, Accountability, Transparency, and Explainability Framework for Safe and Effective Large Language Models in Medical Education: Narrative Review and Qualitative Study.
醫學教育中安全有效大型語言模型的成本、可用性、可信度、公平性、責任制、透明度和可解釋性框架:敘事性回顧與質性研究。 JMIR AI / / 2024-06-14

研究目的是找出大型語言模型(LLMs)在醫學教育中成功發展的關鍵。透過文獻回顧和LLM使用者意見,確定了可信度、負責任性、公平性和可用性等重要因素。使用AHP、TISM和MICMAC等分析方法探討這些因素之間的關係。提出了CUC-FATE框架,用於評估醫學教育中的LLMs。研究結果對醫護人員、技術專家、監管機構和政策制定者有啟發意義。 PubMed DOI

Generative language models exhibit social identity biases.
生成語言模型顯示社會身份偏見。 Nat Comput Sci / / 2024-12-12

這項研究探討大型語言模型(LLMs)中的社會身份偏見,發現這些人工智慧系統展現出與人類相似的偏見,例如對內群體的偏好和對外群體的敵意。研究人員透過句子完成的提示,發現大多數LLMs在控制實驗和真實對話中都顯示出這些偏見。不過,仔細篩選訓練數據和專門微調可以顯著減少這些偏見,強調在人工智慧開發中解決社會偏見的重要性,以創造更公平的系統,並理解人類與LLMs的互動影響。 PubMed DOI

Performance of a Large Language Model in Screening Citations.
大型語言模型在篩選引用文獻中的表現。 JAMA Netw Open / / 2024-07-08

研究發現使用大型語言模型(LLM)在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異,速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率,減少工作負擔。 PubMed DOI

Cultural bias and cultural alignment of large language models.
大型語言模型的文化偏見與文化對齊。 PNAS Nexus / / 2024-09-18

這項研究探討生成式人工智慧模型中的文化偏見,特別是五個版本的OpenAI語言模型如何影響使用者表達並強化主導文化價值觀。研究發現,這些模型多反映英語系和新教歐洲國家的文化。為解決這問題,研究人員測試了一種叫做文化提示的方法,結果顯示這方法能改善後期模型(如GPT-4)在71-81%的評估地區的文化一致性。研究建議持續使用文化提示和評估,以減少生成式人工智慧中的文化偏見。 PubMed DOI