生物調控事件的提取是生物醫學自然語言處理(BioNLP)中的重要研究領域。傳統方法面臨文本挖掘的錯誤連鎖問題及語料庫主題範圍有限的挑戰。大型語言模型(LLMs)因其強大的語義理解和廣泛知識,提供了潛在解決方案。在第八屆生物醫學聯合註釋黑客松(BLAH 8)中,我們探討了使用LLMs提取與水稻相關的生物調控事件。結果顯示LLMs表現良好,但也發現幾個需解決的問題,以便未來在低資源主題中應用。 PubMed DOI ♡
深度學習,特別是大型語言模型(LLMs),在植物生物學中展現出很大的潛力,能為植物細胞系統提供新見解。蛋白質語言模型(PLMs)提升了我們分析核酸和蛋白質序列的能力,揭示生物數據中的複雜模式和關係。這不僅有助於識別序列模式和結構-功能關係,還能促進農業基因改良。透過整合深度學習,我們在植物性狀的基礎研究上能取得顯著進展。因此,戰略性地應用這些方法對推進植物科學和可持續農業至關重要。 PubMed DOI
這項研究評估了21個大型語言模型(LLMs)在檢索生物知識的有效性,特別針對基因調控和KEGG途徑。隨著生物文獻的快速增長,傳統手動整理已不再足夠,LLMs成為一個有前景的替代方案。 結果顯示,模型性能差異明顯,GPT-4和Claude-Pro在基因調控關係的F1分數分別為0.4448和0.4386,KEGG途徑的Jaccard指數也表現強勁。相比之下,開源模型表現較差。研究強調選擇合適模型的重要性,並提供了LLMs在生物研究中的應用見解,相關代碼已在GitHub上公開。 PubMed DOI
電子表型化是一個複雜的過程,涉及分析結構化和非結構化數據,使用規則技術、機器學習和自然語言處理。目前,準確的表型定義需要大量人力,主要依賴文獻回顧和專業知識,這使得擴展困難。大型語言模型(LLMs)提供自動提取表型定義的潛力,但也面臨可靠性和準確性等挑戰。我們的研究目標是建立標準評估集,確保模型輸出可靠,並測試不同提示策略以提取表型定義。結果顯示,雖然有進展,但仍需人類評估,且我們的方法有潛力減少文獻回顧所需時間。 PubMed DOI
這篇文章探討如何將大型語言模型(LLMs)融入科學工作流程,將原始文本轉化為有條理的敘事,並運用語義網技術。文章強調敘事在傳遞複雜科學資訊中的重要性,以及生成文本的可靠性。研究定義了「敘事事件」,並比較了不同小型LLM在特定需求下的表現,重點在於保持原始敘事的完整性。初步評估顯示,LLaMA 2在生成與源文本緊密對齊的敘事事件方面最為有效,並且透過提示工程技術進一步提升了輸出質量。 PubMed DOI
這項研究評估大型語言模型(LLMs)在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法,如Moonshot-v1-128k和Claude-3.5-sonnet,準確率達95%以上;而LLM輔助的方法更佳,準確率可達97%以上。此外,LLM輔助的方法處理時間大幅縮短,分別只需14.7分鐘和5.9分鐘,傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示,LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI
這篇回顧探討大型語言模型(LLMs)在腫瘤學中自動提取非結構化臨床文本的應用,強調其在提升癌症研究和病人照護的潛力。回顧分析了自2000年以來的24項研究,發現大多數使用BERT變體,少數使用Chat-GPT。研究顯示,LLMs能有效提取數據,減少醫療人員的手動工作量,並建議可減輕行政負擔,讓醫護人員更專注於病人照護。未來需進一步研究其在臨床實踐中的整合及表現。 PubMed DOI
目前食品擠壓研究缺乏標準化資料集,影響進展。作者建立人工整理的資料集,並測試大型語言模型(LLMs)自動擷取文獻資料的能力。結果發現,LLMs 雖然偶有錯誤或遺漏,但能大幅減少人工整理時間,是輔助建立資料集、加速研究的有力工具。 PubMed DOI
這篇論文提出 LMCEE 方法,把大型語言模型和 prompt learning 結合來擷取臨床事件,F1 分數明顯勝過傳統和舊有生成式方法。不過,LMCEE 的效果很依賴 prompt 設計和 LLM 選擇,還有進步空間。 PubMed DOI
這項研究發現,大型語言模型(LLMs)能自動從文本中擷取蛋白質交互等分子資料,表現比人工處理更有效率。雖然在部分基因細節上還有困難,但整體來說,LLMs有助於加速生物知識的發現與應用。 PubMed DOI
SeedLLM·Rice 是專為稻米研究打造的大型語言模型(7B 參數),訓練資料涵蓋全球 140 萬篇稻米文獻。它在稻米生物學任務上的表現超越 GPT-4o 等通用模型,主要因為整合了完整的稻米生物知識圖譜和創新的人類評估框架。這個模型免費開放,能協助全球稻米研究與作物改良。 PubMed DOI