使用者輸入	LLM evaluate risk of bias (時間範圍: all)
轉換句	How to evaluate risk of bias in LLM studies, Methods for assessing bias in LLM research, Tools and guidelines for determining bias in LLM literature
執行時間	5.57846 秒
花費Token	132

Assessing the Risk of Bias in Randomized Clinical Trials With Large Language Models.
使用大型語言模型評估隨機臨床試驗的偏倚風險。 JAMA Netw Open / / 2024-05-22

這項研究探討使用大型語言模型（LLMs）來評估隨機臨床試驗（RCTs）中的偏見風險。兩個LLMs在30個RCTs上進行測試，顯示高正確評估率。LLM 2的準確度略高於LLM 1。這兩個模型在評估RCTs時表現出良好的一致性和效率，顯示它們在系統性回顧過程中具有潛力作為支援工具。 PubMed DOI

Streamlining Systematic Reviews: Harnessing Large Language Models for Quality Assessment and Risk-of-Bias Evaluation.
利用大型語言模型優化系統性文獻回顧：品質評估與偏倚風險評估。 Cureus / / 2023-09-08

這篇文章討論了如何巧妙運用大型語言模型（LLMs）來評估研究質量和偏見風險，取代傳統耗時且需大量人力的方式。雖然LLMs能提供客觀、一致且高效的評估，但仍需謹慎因應機器學習模型可能帶來的風險和偏見。結合人類專業知識與自動化LLM評估，或許是最佳的證據綜合方式。 PubMed DOI

Integrating large language models in systematic reviews: a framework and case study using ROBINS-I for risk of bias assessment.
將此醫學文章的標題翻譯為繁體中文：「將大型語言模型整合到系統性評論中：以 ROBINS-I 進行偏倚風險評估的框架和案例研究。」 BMJ Evid Based Med / / 2024-02-21

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性，提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告，並確定了評論的任務類型。雖然模型有潛力，但研究結果顯示仍需人類審查輸入。 PubMed DOI

Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon / / 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

The policies on the use of large language models in radiological journals are lacking: a meta-research study.
放射學期刊中大型語言模型使用政策的不足：一項元研究。 Insights Imaging / / 2024-08-01

這項元研究評估了放射學期刊中關於大型語言模型（LLMs）使用的政策。結果顯示，43.9%的期刊有相關政策，其中43.4%針對作者，29.6%針對審稿人，25.9%針對編輯。許多期刊討論了LLM的使用細節、名稱、驗證及角色，但僅少數提及其潛在影響。研究指出，LLM政策的存在與出版商有顯著關聯，並建議制定共享的報告指導方針，以提升科學寫作的質量與透明度，強調目前的探索仍需進一步發展。 PubMed DOI

Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見：對大型語言模型生成的新聞進行檢驗。 Sci Rep / / 2024-03-07

LLMs透過AIGC改變生活，但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見，歧視女性、黑人。ChatGPT偏見最少，且能拒絕有偏見提示。 PubMed DOI

The political preferences of LLMs.
LLMs 的政治偏好。 PLoS One / / 2024-07-31

您的分析指出大型語言模型（LLMs）中存在的政治偏見問題。透過對24個對話型LLM進行測試，發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳，但這也讓結果的可靠性受到質疑。此外，研究顯示LLMs可以透過有監督的微調受到特定政治取向影響，這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策，因此在開發和使用LLMs時，必須仔細考量其政治影響。 PubMed DOI

Cost, Usability, Credibility, Fairness, Accountability, Transparency, and Explainability Framework for Safe and Effective Large Language Models in Medical Education: Narrative Review and Qualitative Study.
醫學教育中安全有效大型語言模型的成本、可用性、可信度、公平性、責任制、透明度和可解釋性框架：敘事性回顧與質性研究。 JMIR AI / / 2024-06-14

研究目的是找出大型語言模型（LLMs）在醫學教育中成功發展的關鍵。透過文獻回顧和LLM使用者意見，確定了可信度、負責任性、公平性和可用性等重要因素。使用AHP、TISM和MICMAC等分析方法探討這些因素之間的關係。提出了CUC-FATE框架，用於評估醫學教育中的LLMs。研究結果對醫護人員、技術專家、監管機構和政策制定者有啟發意義。 PubMed DOI

Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other Large Language Models in scholarly peer review.
在學術同儕審查中使用 ChatGPT 和其他大型語言模型時，如何避免審稿人疲勞或加劇偏見？考量與建議。 Res Sq / / 2023-07-12

使用大型語言模型如OpenAI的ChatGPT進行同儕評審可能提高效率，但也帶來挑戰。這種做法可能改變評審者和編輯的角色，提升評審品質，但也可能引發偏見和可靠性問題。建議在使用時透明並負責任地揭露，以應對不確定性和風險。 PubMed DOI

Performance of a Large Language Model in Screening Citations.
大型語言模型在篩選引用文獻中的表現。 JAMA Netw Open / / 2024-07-08

研究發現使用大型語言模型（LLM）在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異，速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率，減少工作負擔。 PubMed DOI

Use of a Large Language Model to Assess Clinical Acuity of Adults in the Emergency Department.
使用大型語言模型評估急診室成年人臨床嚴重程度。 JAMA Netw Open / / 2024-05-07

研究發現大型語言模型在緊急室評估臨床嚴重程度時表現優異，準確率高達89%，比起人類分類更準確。LLM表現與部分醫師評審相當，顯示將其整合到緊急室工作流程可能有助於改善分流流程，並不影響質量。這項研究結果指出在這個領域還有進一步研究的必要。 PubMed DOI

Title and abstract screening for literature reviews using large language models: an exploratory study in the biomedical domain.
使用大型語言模型進行文獻回顧的標題和摘要篩選：生物醫學領域的探索性研究。 Syst Rev / / 2024-06-15

利用大型語言模型（LLMs）自動篩選相關出版物進行文獻回顧是有潛力但複雜的任務。已開發Python腳本，利用LLMs評估出版物相關性。不同LLMs在不同數據集上表現不同，靈敏度/特異性範圍從81.93％/75.19％到97.58％/19.12％。修改設置如提示結構和Likert量表範圍，對性能有顯著影響。LLMs的分類器或許可用於評估出版物相關性，但在系統性文獻回顧和更廣泛影響方面的應用尚不確定。未來研究可能會更廣泛地採用LLMs來評估出版物。 PubMed DOI

Leveraging a Large Language Model to Assess Quality-of-Care: Monitoring ADHD Medication Side Effects.
利用大型語言模型評估醫療品質：監控注意力不足過動症藥物副作用。 medRxiv / / 2024-05-07

研究發現使用大型語言模型（LLM）檢視臨床醫師在監測ADHD兒童副作用時，發現LLM在辨識副作用詢問文件化方面表現準確，並無偏見。電話診療中副作用詢問較少，與診所/遠距健康診療不同，且興奮劑和非興奮劑處方有差異。LLM可應用於各種臨床記錄，包括電話診療，有助評估基層醫療中ADHD藥物管理品質，找出改進空間。 PubMed DOI

Performance of large language models on advocating the management of meningitis: a comparative qualitative study.
大型語言模型在提倡腦膜炎管理上的表現：一項比較性質研究。 BMJ Health Care Inform / / 2024-02-14

研究評估了大型語言模型在虛構醫學案例中對腦膜炎指南的應用。結果顯示，不同模型在診斷和治療建議上存在差異，且常有誤導性資訊。GTP-4表現最佳，但使用者仍應注意模型的限制和差異。未來需進一步研究以提升模型對複雜醫學情境的準確性。 PubMed DOI

Inductive reasoning with large language models: a simulated randomized controlled trial for epilepsy.
大型語言模型的歸納推理：一項針對癲癇的模擬隨機對照試驗。 medRxiv / / 2024-04-02

這項研究探討使用大型語言模型（LLMs）來模擬和分析癲癇治療的隨機臨床試驗。LLMs被用來產生臨床數據並分析藥物效力和報告的症狀，顯示與人類評估有密切的一致性。這表明LLMs能夠有效地總結和綜合臨床數據，為未來臨床研究提供了一個有前途的工具，而不需要專門的醫學語言培訓。 PubMed DOI

(Ir)rationality and cognitive biases in large language models.
大型語言模型中的（不）理性與認知偏誤。 R Soc Open Sci / / 2024-08-05

這篇論文探討大型語言模型（LLMs）的理性推理能力，評估它們在認知心理學任務中的表現。研究發現，LLMs展現出與人類相似的非理性，但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時，這些錯誤不符合典型的人類偏見，顯示出獨特的非理性。此外，這些模型的回應顯示出顯著的不一致性，進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI

Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other large language models in scholarly peer review.
在學術同儕評審中使用 ChatGPT 和其他大型語言模型時，如何避免評審者疲勞或加劇偏見？考量與建議。 Res Integr Peer Rev / / 2023-07-22

使用大型語言模型如OpenAI的ChatGPT進行學術寫作或許能提高效率，但在同儕審查中使用則面臨挑戰。必須探討LLMs對審查品質、可信度及社會影響的影響。雖然有助於提升審查品質，卻也可能帶來偏見、保密性及可信度疑慮。外包編輯給LLMs可能帶來意想不到的後果，因此必須謹慎處理。使用LLMs時需謹慎，同時也要保持透明負責的態度。 PubMed DOI

Large language models for generating medical examinations: systematic review.
大型語言模型用於生成醫學檢查：系統性回顧。 BMC Med Educ / / 2024-04-01

這篇評論討論了使用大型語言模型（LLMs）製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效，但需注意部分問題不適合醫學考試，需修改。未來研究應解決這些限制，LLMs可作為撰寫醫學多重選擇題的工具，但應謹慎使用。 PubMed DOI

Potential of Large Language Models in Health Care: Delphi Study.
大型語言模型在醫療保健領域的潛力：德爾菲研究。 J Med Internet Res / / 2024-05-13

大型語言模型（LLM）是機器學習模型，能有效處理自然語言任務。研究探討LLMs對醫療保健的影響，發現可提升臨床工作效率和個人化護理。然而，也存在資安漏洞和偏見風險，需注意隱私問題。未來研究應關注工作流程、品質、整合和法規，以實現成功應用。 PubMed DOI

A systematic review of large language models and their implications in medical education.
大型語言模型在醫學教育中的影響：一個系統性回顧。 Med Educ / / 2024-04-19

使用大型語言模型（LLMs）在醫學教育可能有革新效果，解決資訊過載和時間不足等問題。研究指出LLMs對醫學生學習有正面影響，但也提到準確性和倫理挑戰。負責任地應用LLMs可增進學習體驗，但需注意準確性、技能培養和道德標準。持續評估和合作是整合LLMs在醫學教育中的關鍵。 PubMed DOI

搜尋結果