使用者輸入	risk of bias 使用 LLM 來執行 (時間範圍: all)
轉換句	Risk of bias using LLM for execution, How to assess risk of bias when using LLM, LLM methodology for evaluating risk of bias
執行時間	4.45787 秒
花費Token	134

Assessing the Risk of Bias in Randomized Clinical Trials With Large Language Models.
使用大型語言模型評估隨機臨床試驗的偏倚風險。 JAMA Netw Open / / 2024-05-22

這項研究探討使用大型語言模型（LLMs）來評估隨機臨床試驗（RCTs）中的偏見風險。兩個LLMs在30個RCTs上進行測試，顯示高正確評估率。LLM 2的準確度略高於LLM 1。這兩個模型在評估RCTs時表現出良好的一致性和效率，顯示它們在系統性回顧過程中具有潛力作為支援工具。 PubMed DOI

Streamlining Systematic Reviews: Harnessing Large Language Models for Quality Assessment and Risk-of-Bias Evaluation.
利用大型語言模型優化系統性文獻回顧：品質評估與偏倚風險評估。 Cureus / / 2023-09-08

這篇文章討論了如何巧妙運用大型語言模型（LLMs）來評估研究質量和偏見風險，取代傳統耗時且需大量人力的方式。雖然LLMs能提供客觀、一致且高效的評估，但仍需謹慎因應機器學習模型可能帶來的風險和偏見。結合人類專業知識與自動化LLM評估，或許是最佳的證據綜合方式。 PubMed DOI

Integrating large language models in systematic reviews: a framework and case study using ROBINS-I for risk of bias assessment.
將此醫學文章的標題翻譯為繁體中文：「將大型語言模型整合到系統性評論中：以 ROBINS-I 進行偏倚風險評估的框架和案例研究。」 BMJ Evid Based Med / / 2024-02-21

研究評估了GPT-4語言模型在偏見評估上與人類審查者的一致性，提出了在系統性評論中運用此模型的框架。研究發現在某些偏見評估領域存在中等一致性。提出的框架包括系統性評論的理念、協議、執行和報告，並確定了評論的任務類型。雖然模型有潛力，但研究結果顯示仍需人類審查輸入。 PubMed DOI

Simulated Misuse of Large Language Models and Clinical Credit Systems.
大型語言模型和臨床信用系統的模擬濫用。 medRxiv / / 2024-04-22

LLMs在醫療保健領域被廣泛應用，但可能存在濫用風險，如不公平資源分配或侵犯公民權利。報告探討了這些風險並提出因應策略。 PubMed DOI

Assessing Risk of Bias Using ChatGPT-4 and Cochrane ROB2 Tool.
使用ChatGPT-4和Cochrane ROB2工具評估偏倚風險。 Med Sci Educ / / 2024-06-18

在醫學研究中，系統性回顧至關重要但耗時費力。ChatGPT-4和自動化改變了這情況，加快了過程並提高了可靠性。ChatGPT-4是智能助手，可快速評估研究中的偏見風險，改變了這領域，潛在挽救生命。雖需人類監督，但ChatGPT-4和自動化助力下，循證醫學前景光明。 PubMed DOI

Use of a Large Language Model to Assess Clinical Acuity of Adults in the Emergency Department.
使用大型語言模型評估急診室成年人臨床嚴重程度。 JAMA Netw Open / / 2024-05-07

研究發現大型語言模型在緊急室評估臨床嚴重程度時表現優異，準確率高達89%，比起人類分類更準確。LLM表現與部分醫師評審相當，顯示將其整合到緊急室工作流程可能有助於改善分流流程，並不影響質量。這項研究結果指出在這個領域還有進一步研究的必要。 PubMed DOI

Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other Large Language Models in scholarly peer review.
在學術同儕審查中使用 ChatGPT 和其他大型語言模型時，如何避免審稿人疲勞或加劇偏見？考量與建議。 Res Sq / / 2023-07-12

使用大型語言模型如OpenAI的ChatGPT進行同儕評審可能提高效率，但也帶來挑戰。這種做法可能改變評審者和編輯的角色，提升評審品質，但也可能引發偏見和可靠性問題。建議在使用時透明並負責任地揭露，以應對不確定性和風險。 PubMed DOI

Cost, Usability, Credibility, Fairness, Accountability, Transparency, and Explainability Framework for Safe and Effective Large Language Models in Medical Education: Narrative Review and Qualitative Study.
醫學教育中安全有效大型語言模型的成本、可用性、可信度、公平性、責任制、透明度和可解釋性框架：敘事性回顧與質性研究。 JMIR AI / / 2024-06-14

研究目的是找出大型語言模型（LLMs）在醫學教育中成功發展的關鍵。透過文獻回顧和LLM使用者意見，確定了可信度、負責任性、公平性和可用性等重要因素。使用AHP、TISM和MICMAC等分析方法探討這些因素之間的關係。提出了CUC-FATE框架，用於評估醫學教育中的LLMs。研究結果對醫護人員、技術專家、監管機構和政策制定者有啟發意義。 PubMed DOI

Leveraging a Large Language Model to Assess Quality-of-Care: Monitoring ADHD Medication Side Effects.
利用大型語言模型評估醫療品質：監控注意力不足過動症藥物副作用。 medRxiv / / 2024-05-07

研究發現使用大型語言模型（LLM）檢視臨床醫師在監測ADHD兒童副作用時，發現LLM在辨識副作用詢問文件化方面表現準確，並無偏見。電話診療中副作用詢問較少，與診所/遠距健康診療不同，且興奮劑和非興奮劑處方有差異。LLM可應用於各種臨床記錄，包括電話診療，有助評估基層醫療中ADHD藥物管理品質，找出改進空間。 PubMed DOI

Performance of a Large Language Model in Screening Citations.
大型語言模型在篩選引用文獻中的表現。 JAMA Netw Open / / 2024-07-08

研究發現使用大型語言模型（LLM）在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異，速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率，減少工作負擔。 PubMed DOI

Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other large language models in scholarly peer review.
在學術同儕評審中使用 ChatGPT 和其他大型語言模型時，如何避免評審者疲勞或加劇偏見？考量與建議。 Res Integr Peer Rev / / 2023-07-22

使用大型語言模型如OpenAI的ChatGPT進行學術寫作或許能提高效率，但在同儕審查中使用則面臨挑戰。必須探討LLMs對審查品質、可信度及社會影響的影響。雖然有助於提升審查品質，卻也可能帶來偏見、保密性及可信度疑慮。外包編輯給LLMs可能帶來意想不到的後果，因此必須謹慎處理。使用LLMs時需謹慎，同時也要保持透明負責的態度。 PubMed DOI

Assessing the Efficacy of Large Language Models in Health Literacy: A Comprehensive Cross-Sectional Study.
評估大型語言模型在健康識字能力中的功效：一項全面的橫斷面研究。 Yale J Biol Med / / 2024-04-03

研究使用LLMs提升兒童健康識字能力，結果顯示LLMs能根據年級提供定制回應，但在六年級以下表現不佳。然而，它們可提供各種資訊，有助青少年了解健康資訊。需要進一步研究驗證其準確性和有效性。 PubMed DOI

Large Language Models and User Trust: Consequence of Self-Referential Learning Loop and the Deskilling of Health Care Professionals.
大型語言模型與使用者信任：自我參照學習迴圈的後果及醫護專業人員技能流失。 J Med Internet Res / / 2024-04-25

論文討論了在醫療領域整合大型語言模型（LLMs）的影響，強調臨床醫師的信任、數據來源，以及對LLM性能和臨床醫師能力的影響。提到LLMs中自我參考學習迴圈的擔憂，並討論了風險，如醫療專業人員的技能下降。呼籲整合LLMs到醫療中要謹慎，確保安全有效使用。 PubMed DOI

Inductive reasoning with large language models: a simulated randomized controlled trial for epilepsy.
大型語言模型的歸納推理：一項針對癲癇的模擬隨機對照試驗。 medRxiv / / 2024-04-02

這項研究探討使用大型語言模型（LLMs）來模擬和分析癲癇治療的隨機臨床試驗。LLMs被用來產生臨床數據並分析藥物效力和報告的症狀，顯示與人類評估有密切的一致性。這表明LLMs能夠有效地總結和綜合臨床數據，為未來臨床研究提供了一個有前途的工具，而不需要專門的醫學語言培訓。 PubMed DOI

Performance of large language models on advocating the management of meningitis: a comparative qualitative study.
大型語言模型在提倡腦膜炎管理上的表現：一項比較性質研究。 BMJ Health Care Inform / / 2024-02-14

研究評估了大型語言模型在虛構醫學案例中對腦膜炎指南的應用。結果顯示，不同模型在診斷和治療建議上存在差異，且常有誤導性資訊。GTP-4表現最佳，但使用者仍應注意模型的限制和差異。未來需進一步研究以提升模型對複雜醫學情境的準確性。 PubMed DOI

Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods / / 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

Integrating human expertise & automated methods for a dynamic and multi-parametric evaluation of large language models' feasibility in clinical decision-making.
將人類專業知識與自動化方法整合，以動態和多參數評估大型語言模型在臨床決策中的可行性。 Int J Med Inform / / 2024-05-29

近期LLMs如ChatGPT在醫療保健領域受歡迎，但也帶來安全和倫理風險。為因應此挑戰，提出新方法評估LLMs在臨床護理中的可行性，強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧，確定關鍵評估領域。由專家進行同行評審，確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後，有些被推薦使用，有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

Potential of Large Language Models in Health Care: Delphi Study.
大型語言模型在醫療保健領域的潛力：德爾菲研究。 J Med Internet Res / / 2024-05-13

大型語言模型（LLM）是機器學習模型，能有效處理自然語言任務。研究探討LLMs對醫療保健的影響，發現可提升臨床工作效率和個人化護理。然而，也存在資安漏洞和偏見風險，需注意隱私問題。未來研究應關注工作流程、品質、整合和法規，以實現成功應用。 PubMed DOI

Unlocking the Black Box? A Comprehensive Exploration of Large Language Models in Rehabilitation.
解鎖黑盒？康復中大型語言模型的全面探索。 Am J Phys Med Rehabil / / 2024-01-23

康復對改善殘障或受傷者的福祉至關重要，但過程複雜。大型語言模型（LLMs）透過分析數據和改善溝通，協助康復。LLMs可應對醫療領域的數據偏見和道德問題。在康復中使用LLMs需與專家合作，提升決策能力和預測結果。儘管挑戰重重，但在道德和協作情況下，LLMs在康復領域取得重大進展。 PubMed DOI

Title and abstract screening for literature reviews using large language models: an exploratory study in the biomedical domain.
使用大型語言模型進行文獻回顧的標題和摘要篩選：生物醫學領域的探索性研究。 Syst Rev / / 2024-06-15

利用大型語言模型（LLMs）自動篩選相關出版物進行文獻回顧是有潛力但複雜的任務。已開發Python腳本，利用LLMs評估出版物相關性。不同LLMs在不同數據集上表現不同，靈敏度/特異性範圍從81.93％/75.19％到97.58％/19.12％。修改設置如提示結構和Likert量表範圍，對性能有顯著影響。LLMs的分類器或許可用於評估出版物相關性，但在系統性文獻回顧和更廣泛影響方面的應用尚不確定。未來研究可能會更廣泛地採用LLMs來評估出版物。 PubMed DOI

搜尋結果