原始文章

這項研究評估了大型語言模型(LLMs)在麻醉學系統性回顧中創建搜尋字串的有效性,特別是ChatGPT 4o和Meta-Analysis Librarian。研究分析了85篇來自頂尖麻醉學期刊的系統性回顧,並生成了四個搜尋字串進行比較。結果顯示,原始搜尋字串的檢索率為65%,明顯優於LLM生成的字串(p=0.001),其中Meta-Analysis Librarian的中位檢索率(24%)也高於ChatGPT 4o(6%)。研究建議進一步探討LLM生成字串在不同資料庫的適用性。 PubMed DOI


站上相關主題文章列表

研究評估了ChatGPT 3.5和ChatGPT 4在生成牙齒矯正系統性評論的效果。結果顯示ChatGPT 4比ChatGPT 3.5表現更好,能夠準確創建PICO問題和布林查詢。雖然這些模型對於牙齒矯正研究的查詢有幫助,但醫學研究仍需謹慎,不宜完全依賴模型輸出。 PubMed DOI

大型語言模型如ChatGPT在醫學研究中被廣泛運用,尤其在系統性回顧上。它們可協助加速回顧流程,包括問題定義、文獻檢索、篩選和資訊提取,省時且效率提升。然而,使用時需確保報告透明、區分真假資訊,並防範學術不端。本文探討了大型語言模型在系統性回顧中的潛力,討論了優勢、限制和未來研究方向,以指導相關作者。 PubMed DOI

研究發現使用大型語言模型(LLM)在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異,速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率,減少工作負擔。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI

系統性回顧(SR)的搜尋查詢開發通常相當繁瑣。本研究利用大型語言模型(LLMs)來自動生成基於SR標題和關鍵問題的布林搜尋查詢,並整理了10,346個來自PROSPERO的查詢作為訓練數據集。模型評估顯示,生成的搜尋查詢中位敏感度達85%,但仍有改進空間。訪談結果指出,這些模型可作為初步探索的工具,未來可透過提升查詢質量及特定領域微調來增強效果。此專案的數據集將有助於LLMs的訓練與評估。 PubMed DOI

大型語言模型(LLMs)在神經外科領域逐漸受到重視,顯示出提升各種任務的潛力。然而,針對其在不同應用中的表現進行系統性檢視的研究仍然不足。本研究識別了關鍵的LLMs,並建立可重複性的報告指導方針,強調其在神經外科的進展。 我們在PubMed和Google Scholar搜尋相關文獻,找到51篇符合標準的文章,主要應用於臨床文本生成、標準化考試問題回答及支持臨床決策。主要使用的LLMs包括GPT-3.5、GPT-4、Bard和Bing。研究顯示,雖然LLMs在複雜任務中表現優異,但大多數研究仍集中於基本應用,未充分解決性能提升或可重複性問題。推進此領域需標準化報告實踐及採用更複雜的驗證方法。 PubMed DOI

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

機器學習,特別是大型語言模型(LLMs),越來越受到重視,能協助健康研究中的系統性回顧(SR)。研究團隊在多個資料庫中搜尋,自2021年4月以來共找到8,054個結果,並手動補充33篇,最終納入37篇專注於LLM應用的文章。分析顯示,LLMs在SR的13個步驟中使用了10個,最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力,但許多應用尚未經過驗證,顯示出這一領域的研究需求日益增加。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI