原始文章

Vibrio natriegens 近來在生物技術領域受到關注,因其具備成為生物工程平台的潛力。研究聚焦於其代謝特徵、合成生物學工具及生物生產等方面。本篇綜述利用大型語言模型和知識圖譜,簡化文獻調查,總結相關進展並探討未來應用。結果顯示,V. natriegens 可能在生物技術中扮演重要角色,但仍需面對其優勢與挑戰。 PubMed DOI


站上相關主題文章列表

BioNexusSentinel是一個用於RNA-seq和生物調控網絡探索的軟體平台,整合了視覺工具和Reactome生物模型。它包括基因表達分析器和細胞組織RNA-seq探索器,提高研究生產力,並在網絡建模和生物狀態分析中有應用。該項目在GitHub上可找到。 PubMed DOI

微生物細胞工廠(MCFs)利用合成生物學技術生產化合物,但傳統方法繁瑣。現在透過人工智慧(AI)快速處理生物數據,提高效率,改進微生物生產。AI改變了設計-構建-測試循環,帶來更好結果。本文討論AI在基因組注釋、蛋白工程、功能蛋白設計和微生物生產途徑預測的應用,也探討了挑戰和大型語言模型(LLMs)的潛力。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

噬菌體(phages)是微生物社群中重要但尚未完全了解的成分,因為它們需要細菌宿主來繁殖,能反映生態系統特徵和環境壓力。高通量測序技術已揭示噬菌體族群的多樣性,但病毒基因組的多樣性使得許多基因缺乏適當註解,限制了我們的理解。為了有效應用噬菌體於人類和環境健康,需發展新方法來組織和註解病毒序列。最近在自我監督學習方面的進展顯示出增強病毒蛋白同源性檢測的潛力,特別是在海洋病毒組的研究中。這篇綜述探討了大型語言模型在病毒註解中的潛力與挑戰,強調創新方法的重要性。 PubMed DOI

天然產物在藥物開發中非常重要,尤其是對抗感染、癌症和神經退行性疾病。不過,它們的供應有限,這成為一大挑戰。無模板的生物合成途徑設計能提升產量,而深度學習則是強有力的工具。這篇綜述探討了深度學習算法在天然產物生物合成中的應用,並評估了不同模型在預測中的潛力與挑戰。還提到大型語言模型在酶發現和工程中的應用,並討論了未來的挑戰與前景。 PubMed DOI

在科學研究中,隨著出版物數量的增加,管理變得愈加困難。為了解決這個問題,我們開發了一個高通量流程,利用ChatGPT從超過24,000篇秀麗隱杆線蟲和150,000篇果蠅的文獻中提取資訊,成功識別了超過200,000個C. elegans的互動及近120萬個果蠅的互動,建立了全面的生物圖譜。我們還創建了一個可搜尋的線上平台,方便使用者訪問這些知識網絡,並突顯了重要的生物途徑。這些數據庫可在worm.bio-map.com和drosophila.bio-map.com訪問。 PubMed DOI

知識組織網絡(NEKO)是一種新型工作流程,旨在提升大型語言模型(LLMs)如Qwen的能力,讓它們能從科學文獻中提取和組織知識。與傳統模型不同,NEKO不受預訓練截止日期的限制,並能生成與生物信息實體相關的知識圖譜及綜合摘要。 NEKO在教育、文獻回顧、論文撰寫等學術任務中表現出色,並已在酵母發酵和藍藻生物精煉等案例中證明其有效性。它還提供靈活的本地部署選項,讓更多研究人員能夠使用高級AI工具,促進科學研究的民主化。 PubMed DOI

核糖體剖析(Ribo-seq)是一項能深入了解蛋白質合成的技術,但分析過程對於沒有生物資訊背景的人來說相當複雜。基於大型語言模型的聊天機器人,透過自然語言處理,提供了一個解決方案。本篇評論探討了Ribo-seq分析與聊天機器人技術的結合,強調其在數據分析和結果解釋上的潛力。雖然目前尚無實際應用範例,但未來這些技術有望克服分析障礙,推進對基因表達的理解。不過,模型偏見和數據隱私等問題仍需解決。 PubMed DOI

這篇論文回顧了深度學習的最新進展,特別是大型語言模型(LLMs)在微生物組和宏基因組研究中的影響。它指出微生物的蛋白質和基因組序列可視為「生命的語言」,讓研究人員能透過LLMs從複雜的生態系中獲得見解。文章探討了深度學習和語言模型的應用,包括問題定義、數據集需求及語言建模技術的整合,主要涵蓋蛋白質/基因組語言建模、病毒組學語言建模、生物合成基因簇預測及宏基因組研究的知識整合。 PubMed DOI

這篇評論探討生理學研究如何因應Omic技術的進步而轉向分子生理學,特別是蛋白質質譜分析和下一代DNA測序(NGS)。雖然這些技術提供了豐富的基因、mRNA和蛋白質數據,但要全面理解生理過程仍然困難。評論提到三種整合Omic數據與傳統研究的方法:開發線上資源、使用貝葉斯方法結合不同數據,以及應用自然語言處理技術分析文獻。此外,還提到大型語言模型(如ChatGPT)在知識整合中的角色及其局限性。 PubMed DOI