使用者輸入	LLM evaluate risk of bias (時間範圍: all)
轉換句	Methods to evaluate risk of bias in LLM studies, Comparison of different tools for assessing risk of bias in LLM research, Impact of bias assessment on the validity of LLM study findings
執行時間	4.65251 秒
花費Token	146

Assessing the Risk of Bias in Randomized Clinical Trials With Large Language Models.
使用大型語言模型評估隨機臨床試驗的偏倚風險。 JAMA Netw Open / / 2024-05-22

這項研究探討使用大型語言模型（LLMs）來評估隨機臨床試驗（RCTs）中的偏見風險。兩個LLMs在30個RCTs上進行測試，顯示高正確評估率。LLM 2的準確度略高於LLM 1。這兩個模型在評估RCTs時表現出良好的一致性和效率，顯示它們在系統性回顧過程中具有潛力作為支援工具。 PubMed DOI

Streamlining Systematic Reviews: Harnessing Large Language Models for Quality Assessment and Risk-of-Bias Evaluation.
利用大型語言模型優化系統性文獻回顧：品質評估與偏倚風險評估。 Cureus / / 2023-09-08

這篇文章討論了如何巧妙運用大型語言模型（LLMs）來評估研究質量和偏見風險，取代傳統耗時且需大量人力的方式。雖然LLMs能提供客觀、一致且高效的評估，但仍需謹慎因應機器學習模型可能帶來的風險和偏見。結合人類專業知識與自動化LLM評估，或許是最佳的證據綜合方式。 PubMed DOI

Zero- and few-shot prompting of generative large language models provides weak assessment of risk of bias in clinical trials.
生成大型語言模型的零-shot和少量提示對臨床試驗中的偏見風險評估提供了薄弱的依據。 Res Synth Methods / / 2024-08-23

這項研究探討了使用生成性大型語言模型（LLMs）來自動化醫學研究中的偏見風險評估（RoB）。研究發現，LLMs在新整理的測試數據集上的表現不如預期，F1分數僅在0.1到0.2之間，與簡單基準相似，顯示其在RoB2預測任務中的效能有限。即使在分解任務中，表現也不佳，遠低於傳統監督系統。這顯示目前的LLMs尚不適合作為RoB2評估的可靠工具。 PubMed DOI

Integrating large language models in systematic reviews: a framework and case study using ROBINS-I for risk of bias assessment.
將此醫學文章的標題翻譯為繁體中文：「將大型語言模型整合到系統性評論中：以 ROBINS-I 進行偏倚風險評估的框架和案例研究。」 BMJ Evid Based Med / / 2024-02-21

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性，提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告，並確定了評論的任務類型。雖然模型有潛力，但研究結果顯示仍需人類審查輸入。 PubMed DOI

Benchmarking Human-AI Collaboration for Common Evidence Appraisal Tools.
人類與人工智慧合作的基準測試：針對常見證據評估工具。 J Clin Epidemiol / / 2024-09-14

這項研究探討大型語言模型（LLMs）在評估科學報告及臨床試驗方法學的有效性。研究比較了LLMs與人類評審的準確率，結果顯示人類的準確率高達89%至75%，而LLMs的準確率則較低，PRISMA介於63%到70%之間。雖然結合LLM的評分能提升準確率，但仍不及人類。研究指出，人類與AI合作能提高效率，特別是在較簡單的任務上，但對於複雜的評估則效果有限。 PubMed DOI

A toolbox for surfacing health equity harms and biases in large language models.
一個揭示大型語言模型中健康公平危害和偏見的工具箱。 Nat Med / / 2024-09-23

大型語言模型（LLMs）在滿足健康資訊需求上有潛力，但也可能加劇健康不平等。本研究針對Med-PaLM 2模型，提供識別醫療答案中偏見的資源與方法，並提出一個評估框架及七個對抗性查詢的數據集EquityMedQA。研究強調多樣化評估策略的重要性，並呼籲來自不同背景的評審者參與。雖然無法完全確定AI系統是否促進公平健康結果，但此方法旨在增強可及性與公平醫療。 PubMed DOI

Cost, Usability, Credibility, Fairness, Accountability, Transparency, and Explainability Framework for Safe and Effective Large Language Models in Medical Education: Narrative Review and Qualitative Study.
醫學教育中安全有效大型語言模型的成本、可用性、可信度、公平性、責任制、透明度和可解釋性框架：敘事性回顧與質性研究。 JMIR AI / / 2024-06-14

研究目的是找出大型語言模型（LLMs）在醫學教育中成功發展的關鍵。透過文獻回顧和LLM使用者意見，確定了可信度、負責任性、公平性和可用性等重要因素。使用AHP、TISM和MICMAC等分析方法探討這些因素之間的關係。提出了CUC-FATE框架，用於評估醫學教育中的LLMs。研究結果對醫護人員、技術專家、監管機構和政策制定者有啟發意義。 PubMed DOI

Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon / / 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

Assessing Risk of Bias Using ChatGPT-4 and Cochrane ROB2 Tool.
使用ChatGPT-4和Cochrane ROB2工具評估偏倚風險。 Med Sci Educ / / 2024-06-18

在醫學研究中，系統性回顧至關重要但耗時費力。ChatGPT-4和自動化改變了這情況，加快了過程並提高了可靠性。ChatGPT-4是智能助手，可快速評估研究中的偏見風險，改變了這領域，潛在挽救生命。雖需人類監督，但ChatGPT-4和自動化助力下，循證醫學前景光明。 PubMed DOI

LLM Comparator: Interactive Analysis of Side-by-Side Evaluation of Large Language Models.
LLM 比較器：大型語言模型的並排評估互動分析。 IEEE Trans Vis Comput Graph / / 2024-09-10

LLM Comparator 是一款視覺分析工具，透過並排比較來提升對大型語言模型（LLMs）的評估。它解決了 LLM 評估中可擴展性和可解釋性的問題，讓使用者能分析為何某模型表現優於另一模型。這工具與 Google 專業人士合作開發，提供深入分析個別範例的流程，並讓使用者視覺化探索數據，識別模式、形成假設，並獲得改進模型的見解。LLM Comparator 已整合進 Google 的評估平台，並開源供更多人使用。 PubMed DOI

Title and abstract screening for literature reviews using large language models: an exploratory study in the biomedical domain.
使用大型語言模型進行文獻回顧的標題和摘要篩選：生物醫學領域的探索性研究。 Syst Rev / / 2024-06-15

利用大型語言模型（LLMs）自動篩選相關出版物進行文獻回顧是有潛力但複雜的任務。已開發Python腳本，利用LLMs評估出版物相關性。不同LLMs在不同數據集上表現不同，靈敏度/特異性範圍從81.93％/75.19％到97.58％/19.12％。修改設置如提示結構和Likert量表範圍，對性能有顯著影響。LLMs的分類器或許可用於評估出版物相關性，但在系統性文獻回顧和更廣泛影響方面的應用尚不確定。未來研究可能會更廣泛地採用LLMs來評估出版物。 PubMed DOI

Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods / / 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

Performance of two large language models for data extraction in evidence synthesis.
兩個大型語言模型在證據綜合中的資料提取表現。 Res Synth Methods / / 2024-06-19

研究比較了Claude 2和GPT-4兩個大型語言模型在提取文章數據的表現。Claude 2使用PDF解析插件，準確率高達96.3％，GPT-4則為68.8％。兩者皆能辨識缺失數據並提取未明確報告的資訊。在提供文本時，兩者表現皆相當準確。研究指出語言模型在數據提取上的潛力，但也強調了準確的PDF解析和人工驗證的必要性。 PubMed DOI

Performance of a Large Language Model in Screening Citations.
大型語言模型在篩選引用文獻中的表現。 JAMA Netw Open / / 2024-07-08

研究發現使用大型語言模型（LLM）在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異，速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率，減少工作負擔。 PubMed DOI

Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other Large Language Models in scholarly peer review.
在學術同儕審查中使用 ChatGPT 和其他大型語言模型時，如何避免審稿人疲勞或加劇偏見？考量與建議。 Res Sq / / 2023-07-12

使用大型語言模型如OpenAI的ChatGPT進行同儕評審可能提高效率，但也帶來挑戰。這種做法可能改變評審者和編輯的角色，提升評審品質，但也可能引發偏見和可靠性問題。建議在使用時透明並負責任地揭露，以應對不確定性和風險。 PubMed DOI

Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev / / 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見：對大型語言模型生成的新聞進行檢驗。 Sci Rep / / 2024-03-07

LLMs透過AIGC改變生活，但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見，歧視女性、黑人。ChatGPT偏見最少，且能拒絕有偏見提示。 PubMed DOI

The political preferences of LLMs.
LLMs 的政治偏好。 PLoS One / / 2024-07-31

您的分析指出大型語言模型（LLMs）中存在的政治偏見問題。透過對24個對話型LLM進行測試，發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳，但這也讓結果的可靠性受到質疑。此外，研究顯示LLMs可以透過有監督的微調受到特定政治取向影響，這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策，因此在開發和使用LLMs時，必須仔細考量其政治影響。 PubMed DOI

Disparities in seizure outcomes revealed by large language models.
大型語言模型揭示的癲癇結果差異。 medRxiv / / 2024-03-25

在醫療領域中，大型語言模型可能存在偏見。社會因素影響癲癇患者就醫，但對癲癇發作結果影響尚不明確。研究發現癲癇專用模型無內在偏見，但女性、公共保險及低收入族群癲癇結果較差。族群間癲癇結果有差異，改善照護至關重要。 PubMed DOI

Assessing the Alignment of Large Language Models With Human Values for Mental Health Integration: Cross-Sectional Study Using Schwartz's Theory of Basic Values.
評估大型語言模型與人類價值觀在精神健康整合方面的一致性：使用施瓦茨基本價值理論的橫斷面研究。 JMIR Ment Health / / 2024-04-09

研究使用Schwartz的基本價值理論評估大型語言模型（LLMs）中的價值構念，發現LLMs存在動機偏見，與人類價值有所偏離，對心理健康應用存在道德疑慮。研究強調透明度和對齊過程的重要性，以確保LLMs在提供心理健康護理時公平。 PubMed DOI

搜尋結果