搜尋結果

使用者輸入 LLM evaluate risk of bias (時間範圍: all)
轉換句 Methods to evaluate risk of bias in LLM studies, Tools for assessing risk of bias in LLM research, Impact of bias evaluation on the validity of LLM findings
執行時間 7.42963 秒
花費Token 138
Assessing the Risk of Bias in Randomized Clinical Trials With Large Language Models.
使用大型語言模型評估隨機臨床試驗的偏倚風險。 JAMA Netw Open / / 2024-05-22

這項研究探討使用大型語言模型(LLMs)來評估隨機臨床試驗(RCTs)中的偏見風險。兩個LLMs在30個RCTs上進行測試,顯示高正確評估率。LLM 2的準確度略高於LLM 1。這兩個模型在評估RCTs時表現出良好的一致性和效率,顯示它們在系統性回顧過程中具有潛力作為支援工具。 PubMed DOI

Streamlining Systematic Reviews: Harnessing Large Language Models for Quality Assessment and Risk-of-Bias Evaluation.
利用大型語言模型優化系統性文獻回顧:品質評估與偏倚風險評估。 Cureus / / 2023-09-08

這篇文章討論了如何巧妙運用大型語言模型(LLMs)來評估研究質量和偏見風險,取代傳統耗時且需大量人力的方式。雖然LLMs能提供客觀、一致且高效的評估,但仍需謹慎因應機器學習模型可能帶來的風險和偏見。結合人類專業知識與自動化LLM評估,或許是最佳的證據綜合方式。 PubMed DOI

Integrating large language models in systematic reviews: a framework and case study using ROBINS-I for risk of bias assessment.
將此醫學文章的標題翻譯為繁體中文:「將大型語言模型整合到系統性評論中:以 ROBINS-I 進行偏倚風險評估的框架和案例研究。」 BMJ Evid Based Med / / 2024-02-21

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性,提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告,並確定了評論的任務類型。雖然模型有潛力,但研究結果顯示仍需人類審查輸入。 PubMed DOI

Cost, Usability, Credibility, Fairness, Accountability, Transparency, and Explainability Framework for Safe and Effective Large Language Models in Medical Education: Narrative Review and Qualitative Study.
醫學教育中安全有效大型語言模型的成本、可用性、可信度、公平性、責任制、透明度和可解釋性框架:敘事性回顧與質性研究。 JMIR AI / / 2024-06-14

研究目的是找出大型語言模型(LLMs)在醫學教育中成功發展的關鍵。透過文獻回顧和LLM使用者意見,確定了可信度、負責任性、公平性和可用性等重要因素。使用AHP、TISM和MICMAC等分析方法探討這些因素之間的關係。提出了CUC-FATE框架,用於評估醫學教育中的LLMs。研究結果對醫護人員、技術專家、監管機構和政策制定者有啟發意義。 PubMed DOI

Assessing Risk of Bias Using ChatGPT-4 and Cochrane ROB2 Tool.
使用ChatGPT-4和Cochrane ROB2工具評估偏倚風險。 Med Sci Educ / / 2024-06-18

在醫學研究中,系統性回顧至關重要但耗時費力。ChatGPT-4和自動化改變了這情況,加快了過程並提高了可靠性。ChatGPT-4是智能助手,可快速評估研究中的偏見風險,改變了這領域,潛在挽救生命。雖需人類監督,但ChatGPT-4和自動化助力下,循證醫學前景光明。 PubMed DOI

Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估:可靠性及與人類評價的一致性。 Heliyon / / 2024-08-08

最近在自然語言處理和人工智慧的進展,使大型語言模型(LLMs)在自動化作文評分(AES)中應用更為廣泛,提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性,特別是評分的一致性及其與人類評審者的對齊程度。結果顯示,提示工程對LLMs的可靠性至關重要,且GPT-4的表現優於其他模型,尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者,以深入了解LLMs在教育中的影響。 PubMed DOI

Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other Large Language Models in scholarly peer review.
在學術同儕審查中使用 ChatGPT 和其他大型語言模型時,如何避免審稿人疲勞或加劇偏見?考量與建議。 Res Sq / / 2023-07-12

使用大型語言模型如OpenAI的ChatGPT進行同儕評審可能提高效率,但也帶來挑戰。這種做法可能改變評審者和編輯的角色,提升評審品質,但也可能引發偏見和可靠性問題。建議在使用時透明並負責任地揭露,以應對不確定性和風險。 PubMed DOI

The policies on the use of large language models in radiological journals are lacking: a meta-research study.
放射學期刊中大型語言模型使用政策的不足:一項元研究。 Insights Imaging / / 2024-08-01

這項元研究評估了放射學期刊中關於大型語言模型(LLMs)使用的政策。結果顯示,43.9%的期刊有相關政策,其中43.4%針對作者,29.6%針對審稿人,25.9%針對編輯。許多期刊討論了LLM的使用細節、名稱、驗證及角色,但僅少數提及其潛在影響。研究指出,LLM政策的存在與出版商有顯著關聯,並建議制定共享的報告指導方針,以提升科學寫作的質量與透明度,強調目前的探索仍需進一步發展。 PubMed DOI

Shadows of wisdom: Classifying meta-cognitive and morally grounded narrative content via large language models.
智慧的陰影:透過大型語言模型將元認知和道德基礎敘事內容進行分類。 Behav Res Methods / / 2024-05-29

研究發現,大型語言模型(LLMs)如GPT-4和RoB-ELoC在分類成年人反思職場衝突故事時表現優異,比人類編碼者更可靠。RoB-ELoC和少樣本GPT-4特別適合作為分類器。LLMs能自動化編碼社會科學研究中的複雜概念,有助整合到研究流程中。 PubMed DOI

Title and abstract screening for literature reviews using large language models: an exploratory study in the biomedical domain.
使用大型語言模型進行文獻回顧的標題和摘要篩選:生物醫學領域的探索性研究。 Syst Rev / / 2024-06-15

利用大型語言模型(LLMs)自動篩選相關出版物進行文獻回顧是有潛力但複雜的任務。已開發Python腳本,利用LLMs評估出版物相關性。不同LLMs在不同數據集上表現不同,靈敏度/特異性範圍從81.93%/75.19%到97.58%/19.12%。修改設置如提示結構和Likert量表範圍,對性能有顯著影響。LLMs的分類器或許可用於評估出版物相關性,但在系統性文獻回顧和更廣泛影響方面的應用尚不確定。未來研究可能會更廣泛地採用LLMs來評估出版物。 PubMed DOI

Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other large language models in scholarly peer review.
在學術同儕評審中使用 ChatGPT 和其他大型語言模型時,如何避免評審者疲勞或加劇偏見?考量與建議。 Res Integr Peer Rev / / 2023-07-22

使用大型語言模型如OpenAI的ChatGPT進行學術寫作或許能提高效率,但在同儕審查中使用則面臨挑戰。必須探討LLMs對審查品質、可信度及社會影響的影響。雖然有助於提升審查品質,卻也可能帶來偏見、保密性及可信度疑慮。外包編輯給LLMs可能帶來意想不到的後果,因此必須謹慎處理。使用LLMs時需謹慎,同時也要保持透明負責的態度。 PubMed DOI

Performance of a Large Language Model in Screening Citations.
大型語言模型在篩選引用文獻中的表現。 JAMA Netw Open / / 2024-07-08

研究發現使用大型語言模型(LLM)在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異,速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率,減少工作負擔。 PubMed DOI

Large language models for generating medical examinations: systematic review.
大型語言模型用於生成醫學檢查:系統性回顧。 BMC Med Educ / / 2024-04-01

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

Large Language Models in Ophthalmology Scientific Writing: Ethical Considerations Blurred Lines or Not at All?
眼科科學寫作中的大型語言模型:模糊邊界還是完全不存在的道德考量? Am J Ophthalmol / / 2023-11-11

討論眼科研究使用大型語言模型(LLMs)如ChatGPT的影響,探討其好處、道德疑慮和解決方案。LLMs在研究中有幫助,但也帶來道德挑戰,尤其是科學誠信。建議眼科期刊制定針對LLM使用的指南,強調訂定LLM道德指南的重要性,確保在眼科研究中負責任使用。 PubMed DOI

Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見:對大型語言模型生成的新聞進行檢驗。 Sci Rep / / 2024-03-07

LLMs透過AIGC改變生活,但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見,歧視女性、黑人。ChatGPT偏見最少,且能拒絕有偏見提示。 PubMed DOI

Use of a Large Language Model to Assess Clinical Acuity of Adults in the Emergency Department.
使用大型語言模型評估急診室成年人臨床嚴重程度。 JAMA Netw Open / / 2024-05-07

研究發現大型語言模型在緊急室評估臨床嚴重程度時表現優異,準確率高達89%,比起人類分類更準確。LLM表現與部分醫師評審相當,顯示將其整合到緊急室工作流程可能有助於改善分流流程,並不影響質量。這項研究結果指出在這個領域還有進一步研究的必要。 PubMed DOI

The political preferences of LLMs.
LLMs 的政治偏好。 PLoS One / / 2024-07-31

您的分析指出大型語言模型(LLMs)中存在的政治偏見問題。透過對24個對話型LLM進行測試,發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳,但這也讓結果的可靠性受到質疑。此外,研究顯示LLMs可以透過有監督的微調受到特定政治取向影響,這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策,因此在開發和使用LLMs時,必須仔細考量其政治影響。 PubMed DOI

(Ir)rationality and cognitive biases in large language models.
大型語言模型中的(不)理性與認知偏誤。 R Soc Open Sci / / 2024-08-05

這篇論文探討大型語言模型(LLMs)的理性推理能力,評估它們在認知心理學任務中的表現。研究發現,LLMs展現出與人類相似的非理性,但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時,這些錯誤不符合典型的人類偏見,顯示出獨特的非理性。此外,這些模型的回應顯示出顯著的不一致性,進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

Large language models show human-like content biases in transmission chain experiments.
大型語言模型在傳播鏈實驗中展現出類似人類的內容偏見。 Proc Natl Acad Sci U S A / / 2023-11-12

研究發現大型語言模型(LLMs)如ChatGPT-3在輸出中存在偏見,類似人類對某些內容的偏見。模型呈現出對性別刻板印象、社會性、負面、威脅相關和反直覺的偏見。這些結果顯示模型訓練數據可能包含這些內容,可能放大人們對吸引但不一定具信息性內容的偏好。 PubMed DOI

Large language models propagate race-based medicine.
大型語言模型推廣種族主義醫學。 NPJ Digit Med / / 2024-02-19

研究發現大型語言模型在醫療系統中可能持續散播有害、不準確、種族相關的內容。四個模型在種族醫學和誤解情境下表現不一,都散播種族醫學觀念,且回應不一致。這引發對LLMs在醫療環境可能造成潛在傷害的擔憂,因為它們持續散播已被揭露的種族主義觀念。 PubMed DOI