Evaluating Literature Reviews Conducted by Humans Versus ChatGPT: Comparative Study.
人類與 ChatGPT 進行的文獻回顧評估：比較研究。 JMIR AI 2024-08-19

這項研究探討了ChatGPT-4在文獻回顧中的有效性，特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧，並根據準確性、反應時間等標準進行比較。結果顯示，GPT-4在反應時間和知識廣度上表現優異，但在深入理解和情境相關性上較弱。研究強調，雖然GPT-4可作為初步工具，但仍需專家評估以提升學術成果的準確性和情境豐富性，特別是在醫學研究領域。 PubMed DOI

ChatGPT-4o can serve as the second rater for data extraction in systematic reviews.
ChatGPT-4o 可作為系統評價中數據提取的第二評估者。 PLoS One 2025-01-08

這項研究評估了ChatGPT-4o在系統性回顧中提取數據的效果，並與人類審稿人進行比較。研究聚焦於運動與跌倒風險降低的相關論文。結果顯示，ChatGPT-4o的數據提取準確率高達92.4%，錯誤率僅5.2%。其數據提取的重現性也很強，兩次獨立會議的協議率達94.1%，但若論文缺少資訊，這個比例會降到77.2%。總體來看，ChatGPT-4o是一個可靠的數據提取工具，未來在數據總結方面有潛力發展。 PubMed DOI

ChatGPT for Univariate Statistics: Validation of AI-Assisted Data Analysis in Healthcare Research.
單變量統計的 ChatGPT：AI 輔助數據分析在醫療研究中的驗證。 J Med Internet Res 2025-02-07

這項研究評估了ChatGPT在Python程式碼解釋方面的有效性，特別作為數據分析工具。研究使用全國住院病人樣本的子集，重點在數據管理、描述性統計和推論統計。主要發現包括： 1. **數據處理和分類**：ChatGPT能準確重新分類和呈現數據。 2. **描述性統計**：提供正確的均值、標準差等計算。 3. **推論統計**：準確率隨提示具體性提升，從32.5%到92.5%不等。結論認為，ChatGPT對具備基本統計知識的研究人員是個有價值的工具，但需謹慎構建提示並進行監督，以確保結果準確。 PubMed DOI

Human versus artificial intelligence: evaluating ChatGPT's performance in conducting published systematic reviews with meta-analysis in chronic pain research.
人類與人工智慧：評估 ChatGPT 在慢性疼痛研究中進行已發表的系統性回顧與統合分析的表現。 Reg Anesth Pain Med 2025-02-16

這項研究評估了大型語言模型ChatGPT在系統性回顧和統合分析中的表現，特別是在脊髓刺激後情緒功能的數據上。結果顯示，ChatGPT在標題和摘要篩選的準確率為70.4%，而全文篩選的準確率為68.4%。在數據整合方面，ChatGPT的準確率達到100%。雖然在篩選任務中表現中等，但在數據整合上表現優異。研究指出，人工智慧能提升系統性回顧的效率，但仍需人類監督以確保研究質量。 PubMed DOI

ChatGPT-4 as an Assistant for Evidence-Based Decision-Making Among General Dentists: An Observational Feasibility Study.
ChatGPT-4 作為一般牙醫證據基礎決策的助手：一項觀察性可行性研究。 Cureus 2025-02-27

這項研究探討了ChatGPT-4在牙科領域進行基於證據的決策的可行性。兩位牙醫與ChatGPT-4互動，分析五個臨床情境，並參考Cochrane、ADA和PubMed的文獻。結果顯示，ChatGPT-4表現穩定，能有效識別相關證據並提供摘要，節省臨床醫師的時間。不過，它無法提供直接的網頁連結到引用的文章，這是個限制。總體而言，ChatGPT-4在EBDM中顯示出潛力，但臨床醫師仍需負責評估證據和做出決策。 PubMed DOI

GPT for RCTs? Using AI to determine adherence to clinical trial reporting guidelines.
RCTs 的 GPT？使用 AI 確定臨床試驗報告指導方針的遵循情況。 BMJ Open 2025-03-19

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文，並針對遵循情況向模型提問。結果顯示，GPT-4 Turbo的F1分數達0.89，準確率90%；Llama 2經微調後，F1分數提升至0.84，準確率83%。此外，GPT-4 Vision能準確識別參與者流動圖，但在細節檢測上有困難。整體而言，這兩個模型在評估報告遵循方面顯示出潛力，未來開發高效的開源AI-LLM可能會進一步提升準確性。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

AI-assisted evidence screening method for systematic reviews in environmental research: integrating ChatGPT with domain knowledge.
環境研究中系統評價的AI輔助證據篩選方法：將ChatGPT與領域知識整合。 Environ Evid 2025-04-14

環境科學中的系統性回顧面臨挑戰，因為不同學科的方法和術語不一致，影響證據篩選的透明度和可重複性。為了解決這個問題，我們開發了一個AI輔助的證據篩選框架，並以溪流糞便大腸桿菌濃度與土地使用的關係為案例。透過微調ChatGPT-3.5 Turbo模型，我們在篩選120篇文章時，發現AI與專家之間有顯著一致性，顯示出AI在篩選中的潛力。這個框架能提高篩選效率，減少成本，並為AI在環境研究中的應用提供新方向。 PubMed DOI

ChatGPT artificial intelligence in clinical data analysis: an example comparing standard vs fusion prostate biopsy outcomes after robotic-assisted radical prostatectomy (RaRP).
臨床資料分析中的 ChatGPT 人工智慧：以機器人輔助手術根除性前列腺切除術（RaRP）後，標準與融合前列腺活檢結果比較為例 Arch Ital Urol Androl 2025-05-15

這項回溯性研究比較了前列腺癌患者接受融合切片加隨機切片與單純隨機切片的升期風險，並由ChatGPT-4.0和人類專家分別分析。結果顯示，AI和人類的統計結果完全一致，且融合切片與較低升期風險有關。雖然ChatGPT分析表現可靠，但缺乏自動引用文獻功能，未來仍需加強人機協作。 PubMed DOI

Comparison of ChatGPT and Internet Research for Clinical Research and Decision-Making in Occupational Medicine: Randomized Controlled Trial.
ChatGPT 與網路搜尋在職業醫學臨床研究與決策中的比較：隨機對照試驗 JMIR Form Res 2025-05-20

這項德國研究發現，醫師和醫學生用ChatGPT查職業性肺病資料時，在找有害物質等研究任務上表現較好，也覺得自己專業知識有提升。但在臨床決策（像是否通報職業病）時，自己查資料的答對率反而更高。總結：ChatGPT適合輔助醫學研究，但臨床決策還是不能只靠它。 PubMed DOI

原始文章

站上相關主題文章列表