Automated Paper Screening for Clinical Reviews Using Large Language Models: Data Analysis Study.
使用大型語言模型進行臨床評論的自動篩選：資料分析研究。 J Med Internet Res 2024-01-29

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時，對臨床研究論文標題和摘要的辨識表現。結果顯示，這些模型在篩選超過24,000個標題和摘要時表現準確且敏感，並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間，並提升臨床研究品質，而非取代研究人員。 PubMed DOI

Artificial Intelligence to Automate Network Meta-Analyses: Four Case Studies to Evaluate the Potential Application of Large Language Models.
利用人工智慧自動化網絡Meta分析：四個案例研究評估大型語言模型的潛在應用。 Pharmacoecon Open 2024-02-25

這項研究探討使用一個大型語言模型（GPT-4）來自動化系統性文獻回顧和網絡荟萃分析中的數據提取、程式碼生成和結果解釋。該模型在提取數據和生成腳本方面表現出高準確性，有潛力節省時間並減少錯誤。雖然需要定期進行技術檢查，但未來大型語言模型的改進可能進一步增強自動化效果。 PubMed DOI

Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

Automating biomedical literature review for rapid drug discovery: Leveraging GPT-4 to expedite pandemic response.
利用 GPT-4 加速疫情應對：自動化生物醫學文獻審閱以快速藥物發現。 Int J Med Inform 2024-05-30

研究使用ChatGPT自動化生物醫學文獻審閱，以加速新興傳染病時的藥物發現。測試結果顯示，與專家相比，ChatGPT在準確性和效能上表現優異，尤其在識別SARS-CoV-2和尼帕病毒的藥物靶點方面。這研究顯示ChatGPT在全球衛生緊急情況下，對加速藥物發現和靶點識別有相當潛力。 PubMed DOI

Implementation and evaluation of an additional GPT-4-based reviewer in PRISMA-based medical systematic literature reviews.
在 PRISMA 為基礎的醫學系統性文獻回顧中實施和評估基於 GPT-4 的額外評閱者。 Int J Med Inform 2024-06-29

一項研究評估了在基於PRISMA框架的系統文獻回顧中使用GPT-4 API作為審稿人。研究發現，在摘要篩選方面，GPT-4與人類審稿人之間存在高度一致性，暗示GPT-4有可能在文獻回顧的這個方面取代人類審稿人。 PubMed DOI

Human-Comparable Sensitivity of Large Language Models in Identifying Eligible Studies Through Title and Abstract Screening: 3-Layer Strategy Using GPT-3.5 and GPT-4 for Systematic Reviews.
大型語言模型在通過標題和摘要篩選識別合格研究中的人類可比敏感性：使用 GPT-3.5 和 GPT-4 進行系統評價的三層策略。 J Med Internet Res 2024-08-16

這項研究探討了一種三層篩選方法，利用GPT-3.5和GPT-4來提升雙相情感障礙治療的系統性回顧中標題和摘要的篩選效率。篩選分為三個層次：研究設計、目標患者及介入措施。結果顯示，GPT-4在敏感性和特異性上表現良好，顯示其在系統性回顧中的應用潛力。未來研究可考慮將此方法擴展至其他領域，以評估其更廣泛的有效性。 PubMed DOI

Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

Assessing the performance of generative artificial intelligence in retrieving information against manually curated genetic and genomic data.
評估生成式人工智慧在檢索手動策劃的遺傳和基因組數據方面的表現。 Database (Oxford) 2025-02-18

這篇論文探討大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在數據提取和呈現的有效性，並與人類策展人比較。研究聚焦於小麥和大麥的遺傳特徵，使用36篇期刊文章的資料供GrainGenes數據庫使用。主要發現包括：GPT-4在分類手稿準確率達97%，有效提取80%特徵，並顯示人類與AI合作的潛力。儘管LLMs有其限制，但在生物數據提取上仍能提供顯著幫助，使用者需謹慎對待不準確性。 PubMed DOI

Using artificial intelligence tools for data quality evaluation in the context of microplastic human health risk assessments.
在微塑料對人類健康風險評估中使用人工智慧工具進行數據質量評估。 Environ Int 2025-02-23

隨著微塑料對健康影響的關注增加，對高品質數據的需求也隨之上升。目前的質量保證和控制（QA/QC）框架因手動評估耗時且不一致而面臨挑戰。本研究探討利用人工智慧（AI），特別是大型語言模型（LLMs），如ChatGPT和Gemini，來提升微塑料研究中的QA/QC過程。研究結果顯示，AI能有效提取信息並評估研究可靠性，顯示出在環境科學中標準化微塑料風險評估的潛力。 PubMed DOI

GPT-3.5 Turbo and GPT-4 Turbo in Title and Abstract Screening for Systematic Reviews.
GPT-3.5 Turbo 和 GPT-4 Turbo 在系統性回顧的標題與摘要篩選中的應用。 JMIR Med Inform 2025-03-12

這項研究顯示，GPT-4 Turbo在特異性上表現優於GPT-3.5 Turbo（0.98對0.51），而敏感性相似（0.85對0.83）。不過，GPT-3.5 Turbo的速度明顯較快，處理100篇研究只需0.9分鐘，GPT-4 Turbo則需1.6分鐘。這結果顯示，雖然GPT-4 Turbo在引用篩選的準確性上更佳，但GPT-3.5 Turbo在速度上更具優勢，顯示大型語言模型在文獻選擇上有潛力。 PubMed DOI

原始文章

站上相關主題文章列表