Leveraging Large Language Models and Agent-Based Systems for Scientific Data Analysis: Validation Study.
利用大型語言模型和基於代理的系統進行科學數據分析:驗證研究。
JMIR Ment Health 2025-02-13
Enhancing systematic literature reviews with generative artificial intelligence: development, applications, and performance evaluation.
利用生成式人工智慧增強系統性文獻回顧:發展、應用及效能評估。
J Am Med Inform Assoc 2025-03-04
Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性:診斷研究。
J Med Internet Res 2025-03-11
Evaluating the reference accuracy of large language models in radiology: a comparative study across subspecialties.
放射科大型語言模型參考文獻準確性的評估:跨次專科的比較研究
Diagn Interv Radiol 2025-05-12
這項研究發現,Claude 3.5 Sonnet 在產生放射科參考文獻時最準確,正確率高達 80.8%,捏造比例僅 3.1%,明顯勝過其他模型。相較之下,ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低,捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說,Claude 3.5 Sonnet 學術可靠度高,其他模型則有誤導風險,引用功能還需加強。
PubMedDOI
Do it faster with PICOS: Generative AI-Assisted systematic review screening.
用 PICOS 更快完成:Generative AI 協助的系統性文獻篩選
J Biomed Inform 2025-05-30