Evaluating Literature Reviews Conducted by Humans Versus ChatGPT: Comparative Study.
人類與 ChatGPT 進行的文獻回顧評估：比較研究。 JMIR AI 2024-08-19

這項研究探討了ChatGPT-4在文獻回顧中的有效性，特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧，並根據準確性、反應時間等標準進行比較。結果顯示，GPT-4在反應時間和知識廣度上表現優異，但在深入理解和情境相關性上較弱。研究強調，雖然GPT-4可作為初步工具，但仍需專家評估以提升學術成果的準確性和情境豐富性，特別是在醫學研究領域。 PubMed DOI

Evaluating GPT Models for Automated Literature Screening in Wastewater-Based Epidemiology.
評估 GPT 模型在污水基礎流行病學中自動文獻篩選的應用。 ACS Environ Au 2025-01-20

這項研究探討了利用AI模型，特別是GPT-3、GPT-3.5和GPT-4，自動化污水流行病學文獻篩選，以提升綜合分析的效率。結果顯示，GPT-4在識別原始數據論文方面表現優異，精確度達0.96，召回率為1.00，超越目前的人工篩選標準。不過，這些模型在準確識別相關取樣地點上仍有挑戰，顯示人類監督的重要性。研究強調模型設計的謹慎性，建議AI輔助篩選能提升WBE研究效率，但仍需人類介入以確保準確性。 PubMed DOI

Assessing the performance of generative artificial intelligence in retrieving information against manually curated genetic and genomic data.
評估生成式人工智慧在檢索手動策劃的遺傳和基因組數據方面的表現。 Database (Oxford) 2025-02-18

這篇論文探討大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在數據提取和呈現的有效性，並與人類策展人比較。研究聚焦於小麥和大麥的遺傳特徵，使用36篇期刊文章的資料供GrainGenes數據庫使用。主要發現包括：GPT-4在分類手稿準確率達97%，有效提取80%特徵，並顯示人類與AI合作的潛力。儘管LLMs有其限制，但在生物數據提取上仍能提供顯著幫助，使用者需謹慎對待不準確性。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

AI-assisted evidence screening method for systematic reviews in environmental research: integrating ChatGPT with domain knowledge.
環境研究中系統評價的AI輔助證據篩選方法：將ChatGPT與領域知識整合。 Environ Evid 2025-04-14

環境科學中的系統性回顧面臨挑戰，因為不同學科的方法和術語不一致，影響證據篩選的透明度和可重複性。為了解決這個問題，我們開發了一個AI輔助的證據篩選框架，並以溪流糞便大腸桿菌濃度與土地使用的關係為案例。透過微調ChatGPT-3.5 Turbo模型，我們在篩選120篇文章時，發現AI與專家之間有顯著一致性，顯示出AI在篩選中的潛力。這個框架能提高篩選效率，減少成本，並為AI在環境研究中的應用提供新方向。 PubMed DOI

Assessing the performance of generative artificial intelligence in retrieving information against manually curated genetic and genomic data.
生成式人工智慧在檢索手動整理的遺傳與基因體資料時的表現評估 Database (Oxford) 2025-04-22

這項研究發現，GPT-4在整理小麥和大麥相關科學論文的遺傳資料時，準確率高達97%，擷取性狀和標記-性狀關聯的表現也比GPT-3.5好，錯誤率更低。GPT-4有時甚至能達到人類專家的96%水準。雖然還有改進空間，但未來在協助整理科學資料上很有潛力。 PubMed DOI

Testing the utility of GPT for title and abstract screening in environmental systematic evidence synthesis.
在環境系統性證據綜合中測試 GPT 用於標題與摘要篩選的實用性 Environ Evid 2025-04-24

這篇論文發現，GPT-4在系統性文獻回顧時，能準確又有效地篩選相關文章標題和摘要。在近1.2萬筆資料測試下，GPT-4在特定門檻下可達100%召回率，人工篩選時間最多可省下75%。但還需更多主題和提示詞的研究，才能確認其穩定性。 PubMed DOI

Assessing the performance of generative artificial intelligence in retrieving information against manually curated genetic and genomic data.
生成式人工智慧在檢索手動整理的遺傳與基因體資料中的表現評估 Database (Oxford) 2025-05-22

這項研究發現，GPT-4在從小麥和大麥論文中擷取遺傳性狀資料的表現相當優異，論文分類準確率高達97%，性狀擷取率有80%，標記-性狀關聯擷取率則為61%，錯誤率也比GPT-3.5低。雖然還有進步空間，但GPT-4已展現輔助生物資料庫整理的潛力。不過，使用時仍需留意資料可能不夠完整或正確。 PubMed DOI

Evaluation of a large language model (ChatGPT) versus human researchers in assessing risk-of-bias and community engagement levels: a systematic review use-case analysis.
大型語言模型（ChatGPT）與人類研究人員在評估偏倚風險與社區參與程度之比較：系統性回顧案例分析 Eur J Public Health 2025-06-10

研究用兩個自訂GPT模型和人工審查者比較，評估系統性回顧的偏誤風險和參與程度。結果顯示，GPT模型的分類和人工類似，但在細節分布上有些不同，統計上沒顯著差異。雖然GPT有潛力，但還需要更多研究才能正式應用在科學實務上。 PubMed DOI

Generative AI in peer review process for occupational health.
職業健康領域同儕審查流程中的生成式 AI Occup Med (Lond) 2025-07-02

這項研究發現，生成式AI（如Copilot、ChatGPT、Gemini）在審查職業健康論文時，回饋速度快又方便，但建議內容品質還是比不上人工審稿人。AI雖然能提升論文修改效率，但產出內容還是要再檢查，避免錯誤或假資訊。善用AI能讓學術寫作和發表更有效率。 PubMed DOI

原始文章

站上相關主題文章列表