Appraisal of AI-generated dermatology literature reviews.
人工智慧生成的皮膚科文獻評估。 J Eur Acad Dermatol Venereol 2024-07-12

人工智慧工具如The Literature、微軟的Copilot和谷歌的Gemini對醫學和醫學研究有深遠影響。Gemini在撰寫皮膚科文獻綜述方面表現最佳，尤其在證據、分析、結論和參考文獻方面得分最高。儘管AI生成的文獻提供即時摘要，但全面性和準確性仍有限制。 PubMed DOI

Evaluating Literature Reviews Conducted by Humans Versus ChatGPT: Comparative Study.
人類與 ChatGPT 進行的文獻回顧評估：比較研究。 JMIR AI 2024-08-19

這項研究探討了ChatGPT-4在文獻回顧中的有效性，特別是在醫療法律背景下醫生與病人之間的關係。分析了由GPT-4生成的文獻回顧與人類研究者撰寫的回顧，並根據準確性、反應時間等標準進行比較。結果顯示，GPT-4在反應時間和知識廣度上表現優異，但在深入理解和情境相關性上較弱。研究強調，雖然GPT-4可作為初步工具，但仍需專家評估以提升學術成果的準確性和情境豐富性，特別是在醫學研究領域。 PubMed DOI

Leveraging Large Language Models and Agent-Based Systems for Scientific Data Analysis: Validation Study.
利用大型語言模型和基於代理的系統進行科學數據分析：驗證研究。 JMIR Ment Health 2025-02-13

大型語言模型有潛力改變科學數據的分析與溝通，但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統，透過整合外部數據檢索和分析工具，旨在提供可靠的輸出，讓專家與非專家都能輕鬆使用。研究顯示，LITURAt在查詢一致性和準確性上表現優異，能改善科學數據分析的可及性。儘管有些限制，LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

Enhancing systematic literature reviews with generative artificial intelligence: development, applications, and performance evaluation.
利用生成式人工智慧增強系統性文獻回顧：發展、應用及效能評估。 J Am Med Inform Assoc 2025-03-04

您開發了一個大型語言模型（LLM）輔助的系統，專門用於健康技術評估（HTA）的系統性文獻回顧（SLR）。這個系統包含五個模組，從文獻搜尋到數據總結，並具有人機協作的設計，能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估，系統在摘要篩選中表現優異，達到90%的敏感度和82的F1分數，顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程，降低時間和成本，並提升證據生成的準確性。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

Cross sectional pilot study on clinical review generation using large language models.
使用大型語言模型生成臨床評估的橫斷面初步研究。 NPJ Digit Med 2025-03-20

隨著醫學文獻快速增長，使用大型語言模型（LLMs）來創建臨床評估的興趣也在上升。不過，對於LLMs的可靠性擔憂相當大。一項研究比較了LLM生成的評估與人類撰寫的評估，發現LLMs雖然能快速產出內容，但通常缺乏深度、參考文獻少且邏輯不夠一致。此外，LLMs常引用不知名期刊，且在引用的真實性和準確性上表現不佳。研究強調目前檢測AI生成內容的系統不足，顯示需要改進檢測方法和建立更強的倫理框架，以確保學術透明度。解決這些問題對於負責任地使用LLMs於臨床研究至關重要。 PubMed DOI

An automated framework for assessing how well LLMs cite relevant medical references.
一個自動化框架用於評估大型語言模型（LLMs）引用相關醫學文獻的準確性 Nat Commun 2025-04-16

這項研究開發了 SourceCheckup 工具，能自動檢查 GPT-4o 等大型語言模型在健康問題回答時，所引用的資料是否真的可靠。結果顯示，七種 LLM 中有 50–90% 的回答其實沒被來源完整支持，就算是 GPT-4o 也有三成內容沒被來源證實。醫師審查也證明這點，顯示 LLM 在醫學資訊引用上還有很大改進空間。 PubMed DOI

Evaluating the reference accuracy of large language models in radiology: a comparative study across subspecialties.
放射科大型語言模型參考文獻準確性的評估：跨次專科的比較研究 Diagn Interv Radiol 2025-05-12

這項研究發現，Claude 3.5 Sonnet 在產生放射科參考文獻時最準確，正確率高達 80.8%，捏造比例僅 3.1%，明顯勝過其他模型。相較之下，ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低，捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說，Claude 3.5 Sonnet 學術可靠度高，其他模型則有誤導風險，引用功能還需加強。 PubMed DOI

Do it faster with PICOS: Generative AI-Assisted systematic review screening.
用 PICOS 更快完成：Generative AI 協助的系統性文獻篩選 J Biomed Inform 2025-05-30

用開源大型語言模型自動產生PICOS摘要，可以大幅提升系統性文獻回顧的篩選效率和準確度。審查者有PICOS摘要輔助，篩選速度快75%，敏感度和準確性也更高。即使經驗較少，只要有PICOS摘要，表現也優於沒用PICOS摘要的資深審查者。建議未來可在其他領域推廣應用。 PubMed DOI

Automated literature research and review-generation method based on large language models.
基於大型語言模型的自動化文獻檢索與綜述生成方法 Natl Sci Rev 2025-06-02

這篇論文提出用大型語言模型自動產生高品質科學文獻綜述的方法，不只品質媲美人工，還能跨領域應用，使用者不用專業背景也能操作。系統有嚴格控管，產生錯誤資訊的機率極低（低於0.5%）。在催化劑研究領域測試時，能全面且可靠地整理資料。釋出的軟體讓大家一鍵就能產生綜述，大幅提升研究效率。 PubMed DOI

原始文章

站上相關主題文章列表