Enhancing systematic reviews in orthodontics: a comparative examination of GPT-3.5 and GPT-4 for generating PICO-based queries with tailored prompts and configurations.
在牙齒矯正學中增強系統性回顧：比較 GPT-3.5 和 GPT-4 在生成基於 PICO 的查詢時使用定制提示和配置的效果。 Eur J Orthod 2024-03-11

研究評估了ChatGPT 3.5和ChatGPT 4在生成牙齒矯正系統性評論的效果。結果顯示ChatGPT 4比ChatGPT 3.5表現更好，能夠準確創建PICO問題和布林查詢。雖然這些模型對於牙齒矯正研究的查詢有幫助，但醫學研究仍需謹慎，不宜完全依賴模型輸出。 PubMed DOI

Potential roles of large language models in production of systematic reviews and meta-analyses.
大型語言模型在製作系統性文獻回顧和荟萃分析中的潛在作用。 J Med Internet Res 2024-05-31

大型語言模型如ChatGPT在醫學研究中被廣泛運用，尤其在系統性回顧上。它們可協助加速回顧流程，包括問題定義、文獻檢索、篩選和資訊提取，省時且效率提升。然而，使用時需確保報告透明、區分真假資訊，並防範學術不端。本文探討了大型語言模型在系統性回顧中的潛力，討論了優勢、限制和未來研究方向，以指導相關作者。 PubMed DOI

Performance of a Large Language Model in Screening Citations.
大型語言模型在篩選引用文獻中的表現。 JAMA Netw Open 2024-07-08

研究發現使用大型語言模型（LLM）在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異，速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率，減少工作負擔。 PubMed DOI

Evaluating the effectiveness of large language models in abstract screening: a comparative analysis.
評估大型語言模型在摘要篩選中的有效性：比較分析。 Syst Rev 2024-08-21

這項研究評估大型語言模型（LLMs）在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本，與多種LLMs互動，包括ChatGPT 3.5和4.0、Google PaLM 2等，並將其表現與人類專家的納入決策進行比較。結果顯示，ChatGPT v4.0的準確率超過90%，顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家，但能顯著提升篩選效率，未來可能改變相關工作流程。 PubMed DOI

<i>Literature search sandbox</i>: a large language model that generates search queries for systematic reviews.
<i>文獻搜尋沙盒</i>：一個生成系統評價搜尋查詢的大型語言模型。 JAMIA Open 2024-09-26

系統性回顧（SR）的搜尋查詢開發通常相當繁瑣。本研究利用大型語言模型（LLMs）來自動生成基於SR標題和關鍵問題的布林搜尋查詢，並整理了10,346個來自PROSPERO的查詢作為訓練數據集。模型評估顯示，生成的搜尋查詢中位敏感度達85%，但仍有改進空間。訪談結果指出，這些模型可作為初步探索的工具，未來可透過提升查詢質量及特定領域微調來增強效果。此專案的數據集將有助於LLMs的訓練與評估。 PubMed DOI

Large language models in neurosurgery: a systematic review and meta-analysis.
神經外科中的大型語言模型：系統性回顧與統合分析。 Acta Neurochir (Wien) 2024-11-23

大型語言模型（LLMs）在神經外科領域逐漸受到重視，顯示出提升各種任務的潛力。然而，針對其在不同應用中的表現進行系統性檢視的研究仍然不足。本研究識別了關鍵的LLMs，並建立可重複性的報告指導方針，強調其在神經外科的進展。我們在PubMed和Google Scholar搜尋相關文獻，找到51篇符合標準的文章，主要應用於臨床文本生成、標準化考試問題回答及支持臨床決策。主要使用的LLMs包括GPT-3.5、GPT-4、Bard和Bing。研究顯示，雖然LLMs在複雜任務中表現優異，但大多數研究仍集中於基本應用，未充分解決性能提升或可重複性問題。推進此領域需標準化報告實踐及採用更複雜的驗證方法。 PubMed DOI

Can large language models fully automate or partially assist paper selection in systematic reviews?
大型語言模型能否完全自動化或部分協助系統性回顧中的文獻選擇？ Br J Ophthalmol 2025-01-15

大型語言模型（LLMs）在學術研究中有助於提升效率，特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法：完全自動化（LLM-FA）和半自動化（LLM-SA）。結果顯示，LLM-FA的效果有限，僅識別出32.7%至6.1%的相關論文；而LLM-SA則表現更佳，成功納入82.7%的相關論文，並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務，但可作為提升論文選擇效率的輔助工具。 PubMed DOI

Large language models for conducting systematic reviews: on the rise, but not yet ready for use - a scoping review.
大型語言模型在進行系統性回顧中的應用：雖然正在興起，但尚未準備好使用 - 一項範疇回顧。 J Clin Epidemiol 2025-02-28

機器學習，特別是大型語言模型（LLMs），越來越受到重視，能協助健康研究中的系統性回顧（SR）。研究團隊在多個資料庫中搜尋，自2021年4月以來共找到8,054個結果，並手動補充33篇，最終納入37篇專注於LLM應用的文章。分析顯示，LLMs在SR的13個步驟中使用了10個，最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力，但許多應用尚未經過驗證，顯示出這一領域的研究需求日益增加。 PubMed DOI

A systematic review of large language model (LLM) evaluations in clinical medicine.
大型語言模型 (LLM) 在臨床醫學評估中的系統性回顧。 BMC Med Inform Decis Mak 2025-03-07

大型語言模型（LLMs）在臨床醫學中展現出潛力，能改善決策支持、診斷及醫學教育。不過，將其整合進臨床流程需徹底評估，以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法，發現大多數研究集中於一般領域的LLMs，醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升，研究中仍存在限制與偏見，未來需建立標準化框架，確保其安全有效地應用於臨床實踐。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

原始文章

站上相關主題文章列表