原始文章

隨著科學文章數量快速增加,如何組織和提取資訊成為一大挑戰,顯示出自動化的必要性。本研究探討利用大型語言模型(如OpenAI的GPT-4.0)來提取科學文獻中的關鍵洞察。我們開發了名為ArticleLLM的系統,透過手動基準微調來提升模型表現,並採用多演員LLM策略,結合多個微調模型的優勢,增強提取效果。本研究顯示LLMs在關鍵洞察提取上的潛力,並強調協作微調的好處,有助於提升學術文獻調查與知識發現的效率。 PubMed DOI


站上相關主題文章列表

人工智慧,特別是大型語言模型(LLMs),現在被廣泛運用,因為能跟人類溝通。透過大量網路資料訓練,LLMs能產生各種專業文本。研究指出,GPT-4能在不到一小時內寫出完整的藥學手稿。雖然LLMs在科學研究有潛力,但仍需要人類參與,如參考文獻和數據驗證。該研究探討了將LLMs融入科學研究的優勢和挑戰。 PubMed DOI

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI

這項研究探討了微調開源大型語言模型(LLMs)在醫學證據總結方面的潛力,與專有模型相比,開源模型雖然表現較弱,但提供了更高的透明度和自訂性。研究人員使用MedReview基準數據集對三個流行的開源LLMs進行微調,結果顯示微調後的LongT5在零樣本設定中接近GPT-3.5的表現,且一些小型微調模型甚至超越了大型零樣本模型。這些改進在人工評估和模擬GPT-4的評估中均有明顯體現。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI

這項研究探討如何透過微調提升開源大型語言模型(LLMs)在醫學證據摘要的表現。雖然專有模型通常更有效,但也存在透明度不足和依賴供應商的風險。研究人員使用包含8,161對系統性回顧摘要的MedReview數據集,對三個開源模型—PRIMERA、LongT5和Llama-2進行微調。結果顯示,微調後這些模型的表現顯著提升,特別是LongT5在零樣本設定中表現接近GPT-3.5,甚至有些小型模型超越了大型模型。這顯示微調開源LLMs能有效提升其在專業任務中的表現,成為專有模型的可行替代方案。 PubMed DOI

這份摘要強調大型語言模型(LLMs)在預測實驗結果方面的潛力,特別是在神經科學領域。研究介紹了BrainBench,一個評估LLMs預測能力的基準測試。結果顯示,LLMs在預測上可超越人類專家,而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時,預測也相對可靠,顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學,還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

大型語言模型(LLMs)在學術研究中有助於提升效率,特別是在系統性回顧方面。本研究比較了兩種基於LLM的系統性回顧方法:完全自動化(LLM-FA)和半自動化(LLM-SA)。結果顯示,LLM-FA的效果有限,僅識別出32.7%至6.1%的相關論文;而LLM-SA則表現更佳,成功納入82.7%的相關論文,並有效排除92.2%的不相關論文。這顯示LLMs雖無法獨立完成任務,但可作為提升論文選擇效率的輔助工具。 PubMed DOI

大型語言模型有潛力改變科學數據的分析與溝通,但在準確性上仍有挑戰。洛瑞特腦研究所與塔爾薩大學開發的LITURAt系統,透過整合外部數據檢索和分析工具,旨在提供可靠的輸出,讓專家與非專家都能輕鬆使用。研究顯示,LITURAt在查詢一致性和準確性上表現優異,能改善科學數據分析的可及性。儘管有些限制,LITURAt仍顯示出促進數據驅動見解民主化的潛力。 PubMed DOI

您開發了一個大型語言模型(LLM)輔助的系統,專門用於健康技術評估(HTA)的系統性文獻回顧(SLR)。這個系統包含五個模組,從文獻搜尋到數據總結,並具有人機協作的設計,能根據LLM與人類審查者的意見調整PICOs標準。經過四組數據評估,系統在摘要篩選中表現優異,達到90%的敏感度和82的F1分數,顯示出與人類審查者的高一致性。這個AI輔助系統有潛力簡化SLR過程,降低時間和成本,並提升證據生成的準確性。 PubMed DOI