原始文章

Valsci 是一款開源工具,能用支援 OpenAI 的語言模型,自動化大規模科學論述驗證。它結合檢索增強生成、書目計量評分和 chain-of-thought 提示,能有效搜尋並摘要像 Semantic Scholar 這類來源的證據。和一般 LLM 不同,Valsci 以真實文獻為基礎,減少虛構或錯誤引用,提升研究驗證效率與可靠性。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在各領域表現優異,但對於不準確性和資料來源虛構的擔憂,影響其在科學研究中的應用。為了解決這些問題,檢索增強生成(RAG)方法被提出,讓LLMs能夠訪問外部數據,增強推理能力。 LmRaC是一個新工具,利用用戶的實驗結果回答複雜科學問題,並從PubMed創建可靠的知識庫,確保答案準確且附有引用,降低錯誤資訊風險。它還能根據用戶提供的文件和數據,針對特定問題提供定制回應。 更多資訊可至GitHub倉庫查詢:https://github.com/dbcraig/LmRaC,或在Docker Hub找到LmRaC應用程式。 PubMed DOI

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

機器學習,特別是大型語言模型(LLMs),越來越受到重視,能協助健康研究中的系統性回顧(SR)。研究團隊在多個資料庫中搜尋,自2021年4月以來共找到8,054個結果,並手動補充33篇,最終納入37篇專注於LLM應用的文章。分析顯示,LLMs在SR的13個步驟中使用了10個,最常見的應用為文獻搜尋、研究選擇和數據提取。雖然LLMs顯示潛力,但許多應用尚未經過驗證,顯示出這一領域的研究需求日益增加。 PubMed DOI

這項研究開發了 SourceCheckup 工具,能自動檢查 GPT-4o 等大型語言模型在健康問題回答時,所引用的資料是否真的可靠。結果顯示,七種 LLM 中有 50–90% 的回答其實沒被來源完整支持,就算是 GPT-4o 也有三成內容沒被來源證實。醫師審查也證明這點,顯示 LLM 在醫學資訊引用上還有很大改進空間。 PubMed DOI

這項研究開發了 LARS-GPT 流程,利用多個大型語言模型協助系統性回顧和統合分析時的文獻篩選。實驗結果顯示,LARS-GPT 能在召回率超過 0.9 的情況下,減少超過 40% 的篩選工作量,證明 LLMs 能有效提升文獻篩選效率。 PubMed DOI

這篇研究回顧了LLM在自動化科學文獻回顧的應用,分析了172篇論文。多數專案用ChatGPT或GPT系列,特別在文獻搜尋和資料擷取上表現比BERT好。不過,實際上很少有論文註明用LLM協助。雖然LLM處理數值資料還有些限制,但未來很可能會大幅改變文獻回顧的流程。 PubMed DOI

這項研究比較 Rayyan 和自家開發的 LLM 系統在文獻篩選上的表現。Rayyan 最多可減少 62% 人工時間,但容易漏掉相關文獻或增加工作量。LLM 系統則透過進階技術,達到 99.5% 排除率、100% 陰性預測值,人工時間減少 95.5%,且完全保留相關文獻,效率和準確度都明顯勝過 Rayyan 和人工篩選。 PubMed DOI

這項研究比較GPT-4o、GPT-4o-mini和Llama 3.1:8B在自動化系統性回顧的表現,發現GPT-4o在摘要篩選最優(召回率0.894,精確度0.492),並提出有效調整篩選門檻的方法。偏誤風險評估方面,LLM表現依領域不同而異。整體來說,LLM對自動化系統性回顧有幫助,但還有待改進。 PubMed DOI

這篇研究發現,大型語言模型(LLMs)能自動化文獻篩選和資訊擷取,顯著提升數位健康科技(DHTs)相關隨機對照試驗(RCTs)文獻回顧的效率。不過,DHT在實際醫療應用上還有待克服一些挑戰。 PubMed

這篇論文提出用大型語言模型自動產生高品質科學文獻綜述的方法,不只品質媲美人工,還能跨領域應用,使用者不用專業背景也能操作。系統有嚴格控管,產生錯誤資訊的機率極低(低於0.5%)。在催化劑研究領域測試時,能全面且可靠地整理資料。釋出的軟體讓大家一鍵就能產生綜述,大幅提升研究效率。 PubMed DOI