使用者輸入	用 LLM 來評估 risk of bias (時間範圍: all)
轉換句	LLM for assessing risk of bias in research, using large language models to evaluate bias risk, how to implement LLM in bias risk assessment
執行時間	4.44397 秒
花費Token	133

Zero- and few-shot prompting of generative large language models provides weak assessment of risk of bias in clinical trials.
生成大型語言模型的零-shot和少量提示對臨床試驗中的偏見風險評估提供了薄弱的依據。 Res Synth Methods / / 2024-08-23

這項研究探討了使用生成性大型語言模型（LLMs）來自動化醫學研究中的偏見風險評估（RoB）。研究發現，LLMs在新整理的測試數據集上的表現不如預期，F1分數僅在0.1到0.2之間，與簡單基準相似，顯示其在RoB2預測任務中的效能有限。即使在分解任務中，表現也不佳，遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI

Benchmarking Human-AI Collaboration for Common Evidence Appraisal Tools.
人類與人工智慧合作的基準測試：針對常見證據評估工具。 J Clin Epidemiol / / 2024-09-14

這項研究探討大型語言模型（LLMs）在評估科學報告及臨床試驗方法學的有效性。研究比較了LLMs與人類評審的準確率，結果顯示人類的準確率高達89%至75%，而LLMs的準確率則較低，PRISMA介於63%到70%之間。雖然結合LLM的評分能提升準確率，但仍不及人類。研究指出，人類與AI合作能提高效率，特別是在較簡單的任務上，但對於複雜的評估則效果有限。 PubMed DOI

Assessing Risk of Bias Using ChatGPT-4 and Cochrane ROB2 Tool.
使用ChatGPT-4和Cochrane ROB2工具評估偏倚風險。 Med Sci Educ / / 2024-06-18

在醫學研究中，系統性回顧至關重要但耗時費力。ChatGPT-4和自動化改變了這情況，加快了過程並提高了可靠性。ChatGPT-4是智能助手，可快速評估研究中的偏見風險，改變了這領域，潛在挽救生命。雖需人類監督，但ChatGPT-4和自動化助力下，循證醫學前景光明。 PubMed DOI

Debiasing large language models: research opportunities.
大型語言模型去偏見化：研究機會。 J R Soc N Z / / 2024-12-16

這篇論文指出大型語言模型（LLMs）在醫療、金融和交通等領域的重要性，同時也提到訓練數據和社會影響所帶來的偏見挑戰。研究強調需要針對偏見檢測和減輕的研究，特別是在像紐西蘭這樣的弱勢地區。它評估了紐西蘭現有的偏見指標和去偏見技術，找出研究空白，並討論了當前的努力，還提出了未來針對紐西蘭獨特文化和社會環境的研究機會。 PubMed DOI

Integrating randomized controlled trials and non-randomized studies of interventions to assess the effect of rare events: a Bayesian re-analysis of two meta-analyses.
整合隨機對照試驗與非隨機介入研究以評估稀有事件的影響：對兩項統合分析的貝葉斯再分析。 BMC Med Res Methodol / / 2024-09-28

這項研究探討如何在針對罕見事件的統合分析中，整合非隨機干預研究（NRSIs）與隨機對照試驗（RCTs）。研究強調處理潛在偏差的重要性，並提出貝葉斯權力先驗方法來降低NRSIs的權重。進行了兩項統合分析，分別檢視SGLT-2抑制劑與糖尿病酮症酸中毒（DKA）風險，以及低劑量甲氨蝶呤與黑色素瘤的關聯。結果顯示，納入NRSIs後，DKA和黑色素瘤的風險顯著增加，強調了評估NRSIs偏差的必要性。 PubMed DOI

Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial.
大型語言模型對診斷推理的影響：一項隨機臨床試驗。 JAMA Netw Open / / 2024-10-28

這項研究評估大型語言模型（LLM）對醫師診斷推理的影響，與傳統資源相比。研究於2023年11月29日至12月29日進行，參與者來自多所學術機構的醫師，分為兩組：一組使用LLM和傳統資源，另一組僅用傳統資源。結果顯示，LLM組的中位診斷推理分數為76%，略高於傳統組的74%，但差異不顯著（P = .60）。不過，LLM的單獨表現比傳統資源高出16個百分點（P = .03），顯示人工智慧在臨床實踐中的潛力。 PubMed DOI

Evaluation and mitigation of cognitive biases in medical language models.
醫學語言模型中認知偏誤的評估與減緩。 NPJ Digit Med / / 2024-10-21

隨著大型語言模型（LLMs）在醫學考試中表現優異，對其在醫學領域的應用興趣逐漸增加。然而，這些考試無法真實反映醫生與病人之間的複雜互動，特別是受到病人遵從性和認知偏見的影響。我們假設LLMs在面對臨床偏見時的表現會較差。為此，我們創建了BiasMedQA數據集，包含1,273個修改過的USMLE問題，並評估了六個LLMs。結果顯示，GPT-4對偏見的抵抗力較強，而其他模型表現下降。這強調了增強LLMs對認知偏見抵抗力的重要性，以提供更可靠的醫療結果。 PubMed DOI

Large language models display human-like social desirability biases in Big Five personality surveys.
大型語言模型在五大人格調查中顯示出類似人類的社會期望偏見。 PNAS Nexus / / 2024-12-18

這項研究指出大型語言模型（LLMs），如GPT-4、Claude 3、Llama 3和PaLM-2，在五大人格測評中存在明顯的社會期望偏誤。研究發現，當模型感受到被評估時，會調整回應以顯得更理想。這種偏誤在所有測試的模型中都有觀察到，且新版本的模型效果更明顯，例如GPT-4的回應偏移達1.20個標準差。即使隨機化問題順序或改寫問題，偏誤仍然存在，顯示這不僅是順從偏誤。雖然反向編碼問題能減少偏誤，但無法完全消除，顯示LLMs在心理測量及作為人類參與者替代品方面仍有局限。 PubMed DOI

Generative language models exhibit social identity biases.
生成語言模型顯示社會身份偏見。 Nat Comput Sci / / 2024-12-12

這項研究探討大型語言模型（LLMs）中的社會身份偏見，發現這些人工智慧系統展現出與人類相似的偏見，例如對內群體的偏好和對外群體的敵意。研究人員透過句子完成的提示，發現大多數LLMs在控制實驗和真實對話中都顯示出這些偏見。不過，仔細篩選訓練數據和專門微調可以顯著減少這些偏見，強調在人工智慧開發中解決社會偏見的重要性，以創造更公平的系統，並理解人類與LLMs的互動影響。 PubMed DOI

Performance of a Large Language Model in Screening Citations.
大型語言模型在篩選引用文獻中的表現。 JAMA Netw Open / / 2024-07-08

研究發現使用大型語言模型（LLM）在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異，速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率，減少工作負擔。 PubMed DOI

Cultural bias and cultural alignment of large language models.
大型語言模型的文化偏見與文化對齊。 PNAS Nexus / / 2024-09-18

這項研究探討生成式人工智慧模型中的文化偏見，特別是五個版本的OpenAI語言模型如何影響使用者表達並強化主導文化價值觀。研究發現，這些模型多反映英語系和新教歐洲國家的文化。為解決這問題，研究人員測試了一種叫做文化提示的方法，結果顯示這方法能改善後期模型（如GPT-4）在71-81%的評估地區的文化一致性。研究建議持續使用文化提示和評估，以減少生成式人工智慧中的文化偏見。 PubMed DOI

搜尋結果