Evaluating Literature Reviews Conducted by Humans Versus ChatGPT: Comparative Study.
人類與 ChatGPT 進行的文獻回顧評估：比較研究。 JMIR AI 2024-08-19

這項研究探討了ChatGPT-4在文獻回顧中的有效性，特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧，並根據準確性、反應時間等標準進行比較。結果顯示，GPT-4在反應時間和知識廣度上表現優異，但在深入理解和情境相關性上較弱。研究強調，雖然GPT-4可作為初步工具，但仍需專家評估以提升學術成果的準確性和情境豐富性，特別是在醫學研究領域。 PubMed DOI

Leveraging Large Language Models and Agent-Based Systems for Scientific Data Analysis: Validation Study.
利用大型語言模型和基於代理的系統進行科學數據分析：驗證研究。 JMIR Ment Health 2025-02-13

大型語言模型有潛力改變科學數據的分析與溝通，但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統，透過整合外部數據檢索和分析工具，旨在提供可靠的輸出，讓專家與非專家都能輕鬆使用。研究顯示，LITURAt在查詢一致性和準確性上表現優異，能改善科學數據分析的可及性。儘管有些限制，LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

Enhancing systematic literature reviews with generative artificial intelligence: development, applications, and performance evaluation.
利用生成式人工智慧增強系統性文獻回顧：發展、應用及效能評估。 J Am Med Inform Assoc 2025-03-04

您開發了一個大型語言模型（LLM）輔助的系統，專門用於健康技術評估（HTA）的系統性文獻回顧（SLR）。這個系統包含五個模組，從文獻搜尋到數據總結，並具有人機協作的設計，能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估，系統在摘要篩選中表現優異，達到90%的敏感度和82的F1分數，顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程，降低時間和成本，並提升證據生成的準確性。 PubMed DOI

Simplifying software compliance: AI technologies in drafting technical documentation for the AI Act.
簡化軟體合規：AI 技術在撰寫 AI 法案技術文件中的應用。 Empir Softw Eng 2025-04-07

歐洲人工智慧法案要求針對AI系統提供具體技術文件，對中小企業來說挑戰不小，因為需要專業法律和技術知識。本研究探討了像ChatGPT和合規工具DoXpert如何幫助軟體開發者滿足這些要求。透過開源高風險AI系統的案例研究，並與法律專家合作，評估工具生成的文件與專家意見的一致性。結果顯示部分一致，ChatGPT表現有顯著問題，而DoXpert的評估與專家判斷有中等相關性。研究強調AI工具與人類專業知識合作的潛力，有助於減輕合規負擔，促進負責任的AI發展。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

Natural language processing in drug discovery: bridging the gap between text and therapeutics with artificial intelligence.
人工智慧輔助下，自然語言處理於藥物開發：連結文本與治療之間的橋樑 Expert Opin Drug Discov 2025-04-29

近年AI和NLP技術大幅提升生命科學領域的文本分析效率，像NER、知識圖譜和大型語言模型各有優缺點，適合不同生物資料。選擇技術時要依應用需求調整。隨著科學文獻暴增，研究人員面臨更多機會與挑戰。 PubMed DOI

From Algorithms to Academia: An Endeavor to Benchmark AI-Generated Scientific Papers against Human Standards.
從演算法到學術界：以人類標準評估 AI 生成科學論文的嘗試 Arch Bone Jt Surg 2025-05-07

這項研究比較AI（ChatGPT和scite Assistant）和人類寫的科學論文，評估正確性、可讀性和被接受度。結果顯示，人類寫的論文品質最高，尤其是跟骨骨折主題。AI寫的論文內容大致正確，但引用準確度不一，ChatGPT表現較好。結論是AI能輔助科學寫作，但還是需要嚴格查證，才能確保內容正確。 PubMed DOI

The emergence of large language models as tools in literature reviews: a large language model-assisted systematic review.
大型語言模型作為文獻回顧工具的興起：大型語言模型輔助的系統性回顧 J Am Med Inform Assoc 2025-05-07

這篇研究回顧了LLM在自動化科學文獻回顧的應用，分析了172篇論文。多數專案用ChatGPT或GPT系列，特別在文獻搜尋和資料擷取上表現比BERT好。不過，實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制，但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

Evaluating generative AI for qualitative data extraction in community-based fisheries management literature.
在社區型漁業管理文獻中評估生成式AI於質性資料萃取的應用 Environ Evid 2025-06-01

這項研究比較GPT-4 Turbo和Elicit兩款AI工具，從33篇社區型漁業管理論文中擷取質性資料的表現。結果發現，AI在抓取情境性資料時表現不一，但有時能和人工審查者一樣好。整體來說，AI可協助文獻回顧，但還是需要人工把關，顯示AI有潛力但目前仍有限制。 PubMed DOI

Validation of automated paper screening for esophagectomy systematic review using large language models.
使用大型語言模型驗證自動化文獻篩選於食道切除術系統性回顧的可行性 PeerJ Comput Sci 2025-06-26

這項研究發現，GPT-4在協助篩選食道切除術併發症危險因子的文獻時，和人工審查者的判斷一致率高，尤其在標準較寬鬆時表現更好。雖然標準嚴格時準確率會下降，但GPT-4仍能有效簡化流程並提供決策依據。未來建議進一步比較不同模型及應用於其他審查步驟。 PubMed DOI

原始文章

站上相關主題文章列表