原始文章

這項研究評估了大型語言模型(LLMs)在麻醉學系統性回顧中創建搜尋字串的有效性,特別是ChatGPT 4o和Meta-Analysis Librarian。研究分析了85篇來自頂尖麻醉學期刊的系統性回顧,並生成了四個搜尋字串進行比較。結果顯示,原始搜尋字串的檢索率為65%,明顯優於LLM生成的字串(p=0.001),其中Meta-Analysis Librarian的中位檢索率(24%)也高於ChatGPT 4o(6%)。研究建議進一步探討LLM生成字串在不同資料庫的適用性。 PubMed DOI


站上相關主題文章列表

系統性回顧(SR)的搜尋查詢開發通常相當繁瑣。本研究利用大型語言模型(LLMs)來自動生成基於SR標題和關鍵問題的布林搜尋查詢,並整理了10,346個來自PROSPERO的查詢作為訓練數據集。模型評估顯示,生成的搜尋查詢中位敏感度達85%,但仍有改進空間。訪談結果指出,這些模型可作為初步探索的工具,未來可透過提升查詢質量及特定領域微調來增強效果。此專案的數據集將有助於LLMs的訓練與評估。 PubMed DOI

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

機器學習,特別是大型語言模型(LLMs),越來越受到重視,能協助健康研究中的系統性回顧(SR)。研究團隊在多個資料庫中搜尋,自2021年4月以來共找到8,054個結果,並手動補充33篇,最終納入37篇專注於LLM應用的文章。分析顯示,LLMs在SR的13個步驟中使用了10個,最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力,但許多應用尚未經過驗證,顯示出這一領域的研究需求日益增加。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這篇論文探討大型語言模型(LLMs)在系統性文獻回顧中的篩選效果,並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選,結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96,AUC為0.96;標題和摘要篩選的敏感度為0.73,經修正後提升至0.98,特異度保持高達0.99。相比之下,ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率,減輕工作負擔。 PubMed DOI

這篇回顧分析168篇研究,發現ChatGPT-4o在選擇題最準,ChatGPT-4開放式問題表現最好,但人類醫師在前1和前3名診斷還是最強。Claude 3 Opus在前5名診斷勝出,Gemini則在分級和分類任務表現最佳。這些結果可作為醫療現場選用AI輔助的參考依據。 PubMed DOI

這篇研究回顧了LLM在自動化科學文獻回顧的應用,分析了172篇論文。多數專案用ChatGPT或GPT系列,特別在文獻搜尋和資料擷取上表現比BERT好。不過,實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制,但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

這項研究比較四款熱門免費大型語言模型在檢查健康研究報告是否遵守PRISMA 2020和PRIOR指引的表現。結果發現,所有模型在PRISMA 2020的判斷上都高估了合規情況,準確度不如人類專家;但在PRIOR指引上,ChatGPT表現和專家差不多。這是首篇針對此任務的比較研究,未來還需更多探討AI在健康研究審查的應用。 PubMed DOI

五款主流大型語言模型(如ChatGPT-4、Gemini等)在麻醉學考題測試中都拿到高分,彼此表現差不多,顯示未來有望協助醫學教育和臨床決策。不過,還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI

這篇系統性回顧發現,大型語言模型像ChatGPT、GPT-4等,已經開始應用在麻醉和重症醫學,包括加護醫療、醫療教育和圍手術期照護。雖然它們在簡單任務上表現不錯,但遇到複雜情境還是比不上醫師。現階段LLMs還不能完全取代醫師,但在特定、經過監督的任務上有潛力。未來還需要更多研究來驗證其臨床應用。 PubMed DOI