使用者輸入	risk of bias 使用 LLM 來執行 (時間範圍: all)
轉換句	risk of bias using LLM for analysis, LLM method for assessing risk of bias, how to conduct risk of bias assessment with LLM
執行時間	5.28796 秒
花費Token	134

Assessing the Risk of Bias in Randomized Clinical Trials With Large Language Models.
使用大型語言模型評估隨機臨床試驗的偏倚風險。 JAMA Netw Open / / 2024-05-22

這項研究探討使用大型語言模型（LLMs）來評估隨機臨床試驗（RCTs）中的偏見風險。兩個LLMs在30個RCTs上進行測試，顯示高正確評估率。LLM 2的準確度略高於LLM 1。這兩個模型在評估RCTs時表現出良好的一致性和效率，顯示它們在系統性回顧過程中具有潛力作為支援工具。 PubMed DOI

Streamlining Systematic Reviews: Harnessing Large Language Models for Quality Assessment and Risk-of-Bias Evaluation.
利用大型語言模型優化系統性文獻回顧：品質評估與偏倚風險評估。 Cureus / / 2023-09-08

這篇文章討論了如何巧妙運用大型語言模型（LLMs）來評估研究質量和偏見風險，取代傳統耗時且需大量人力的方式。雖然LLMs能提供客觀、一致且高效的評估，但仍需謹慎因應機器學習模型可能帶來的風險和偏見。結合人類專業知識與自動化LLM評估，或許是最佳的證據綜合方式。 PubMed DOI

Integrating large language models in systematic reviews: a framework and case study using ROBINS-I for risk of bias assessment.
將此醫學文章的標題翻譯為繁體中文：「將大型語言模型整合到系統性評論中：以 ROBINS-I 進行偏倚風險評估的框架和案例研究。」 BMJ Evid Based Med / / 2024-02-21

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性，提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告，並確定了評論的任務類型。雖然模型有潛力，但研究結果顯示仍需人類審查輸入。 PubMed DOI

Simulated Misuse of Large Language Models and Clinical Credit Systems.
大型語言模型和臨床信用系統的模擬濫用。 medRxiv / / 2024-04-22

LLMs在醫療保健領域被廣泛應用，但可能存在濫用風險，如不公平資源分配或侵犯公民權利。報告探討了這些風險並提出因應策略。 PubMed DOI

Disparities in seizure outcomes revealed by large language models.
大型語言模型揭示的癲癇結果差異。 medRxiv / / 2024-03-25

在醫療領域中，大型語言模型可能存在偏見。社會因素影響癲癇患者就醫，但對癲癇發作結果影響尚不明確。研究發現癲癇專用模型無內在偏見，但女性、公共保險及低收入族群癲癇結果較差。族群間癲癇結果有差異，改善照護至關重要。 PubMed DOI

Inductive reasoning with large language models: a simulated randomized controlled trial for epilepsy.
大型語言模型的歸納推理：一項針對癲癇的模擬隨機對照試驗。 medRxiv / / 2024-04-02

這項研究探討使用大型語言模型（LLMs）來模擬和分析癲癇治療的隨機臨床試驗。LLMs被用來產生臨床數據並分析藥物效力和報告的症狀，顯示與人類評估有密切的一致性。這表明LLMs能夠有效地總結和綜合臨床數據，為未來臨床研究提供了一個有前途的工具，而不需要專門的醫學語言培訓。 PubMed DOI

Use of a Large Language Model to Assess Clinical Acuity of Adults in the Emergency Department.
使用大型語言模型評估急診室成年人臨床嚴重程度。 JAMA Netw Open / / 2024-05-07

研究發現大型語言模型在緊急室評估臨床嚴重程度時表現優異，準確率高達89%，比起人類分類更準確。LLM表現與部分醫師評審相當，顯示將其整合到緊急室工作流程可能有助於改善分流流程，並不影響質量。這項研究結果指出在這個領域還有進一步研究的必要。 PubMed DOI

Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見：對大型語言模型生成的新聞進行檢驗。 Sci Rep / / 2024-03-07

LLMs透過AIGC改變生活，但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見，歧視女性、黑人。ChatGPT偏見最少，且能拒絕有偏見提示。 PubMed DOI

Disparities in seizure outcomes revealed by large language models.
大型語言模型揭示的癲癇結果差異。 J Am Med Inform Assoc / / 2024-03-25

大型語言模型（LLMs）或許能改善醫療保健，但也可能存在偏見。社會健康因素影響癲癇護理的結果。研究發現LLM沒有固有偏見，但不同人群的癲癇結果有差異，女性、有公共保險和低收入者結果較差。解決這些差異對癲癇護理至關重要。 PubMed DOI

Assessing Risk of Bias Using ChatGPT-4 and Cochrane ROB2 Tool.
使用ChatGPT-4和Cochrane ROB2工具評估偏倚風險。 Med Sci Educ / / 2024-06-18

在醫學研究中，系統性回顧至關重要但耗時費力。ChatGPT-4和自動化改變了這情況，加快了過程並提高了可靠性。ChatGPT-4是智能助手，可快速評估研究中的偏見風險，改變了這領域，潛在挽救生命。雖需人類監督，但ChatGPT-4和自動化助力下，循證醫學前景光明。 PubMed DOI

Cost, Usability, Credibility, Fairness, Accountability, Transparency, and Explainability Framework for Safe and Effective Large Language Models in Medical Education: Narrative Review and Qualitative Study.
醫學教育中安全有效大型語言模型的成本、可用性、可信度、公平性、責任制、透明度和可解釋性框架：敘事性回顧與質性研究。 JMIR AI / / 2024-06-14

研究目的是找出大型語言模型（LLMs）在醫學教育中成功發展的關鍵。透過文獻回顧和LLM使用者意見，確定了可信度、負責任性、公平性和可用性等重要因素。使用AHP、TISM和MICMAC等分析方法探討這些因素之間的關係。提出了CUC-FATE框架，用於評估醫學教育中的LLMs。研究結果對醫護人員、技術專家、監管機構和政策制定者有啟發意義。 PubMed DOI

Leveraging a Large Language Model to Assess Quality-of-Care: Monitoring ADHD Medication Side Effects.
利用大型語言模型評估醫療品質：監控注意力不足過動症藥物副作用。 medRxiv / / 2024-05-07

研究發現使用大型語言模型（LLM）檢視臨床醫師在監測ADHD兒童副作用時，發現LLM在辨識副作用詢問文件化方面表現準確，並無偏見。電話診療中副作用詢問較少，與診所/遠距健康診療不同，且興奮劑和非興奮劑處方有差異。LLM可應用於各種臨床記錄，包括電話診療，有助評估基層醫療中ADHD藥物管理品質，找出改進空間。 PubMed DOI

搜尋結果