原始文章

噬菌體(phages)是微生物社群中重要但尚未完全了解的成分,因為它們需要細菌宿主來繁殖,能反映生態系統特徵和環境壓力。高通量測序技術已揭示噬菌體族群的多樣性,但病毒基因組的多樣性使得許多基因缺乏適當註解,限制了我們的理解。為了有效應用噬菌體於人類和環境健康,需發展新方法來組織和註解病毒序列。最近在自我監督學習方面的進展顯示出增強病毒蛋白同源性檢測的潛力,特別是在海洋病毒組的研究中。這篇綜述探討了大型語言模型在病毒註解中的潛力與挑戰,強調創新方法的重要性。 PubMed DOI


站上相關主題文章列表

研究發現,利用蛋白質語言模型能夠改善病毒序列註釋,發現新的病毒蛋白質,並擴展海洋病毒體系的註釋。這種方法在海洋微生物中找到新的DNA編輯蛋白質家族,提升病毒蛋白質的辨識,並帶來新的生物發現。 PubMed DOI

研究發現第二類微囊素具抗生素潛力,但因為短小且多樣,發現受限。利用蛋白語言模型探測微囊素於細菌基因組,比傳統BLAST更有效。可準確辨識微囊素,並發現被忽略的新微囊素。 PubMed DOI

大型語言模型(LLMs)是強大的人工智慧模型,應用在自然語言處理等任務上表現優異。透過深度學習技術,利用龐大數據訓練神經網絡的參數。LLMs在生物資訊領域展現潛力,可能超越語言建模能力。本文討論了知名的LLMs如BERT和GPT在生物資訊中的應用,包括基因組學、轉錄組學、蛋白質組學、藥物發現和單細胞分析,並強調了LLMs在應對生物資訊挑戰上的潛力。 PubMed DOI

蛋白質語言模型可幫助找出次級基因體樣本中的病毒基因組,增進對病毒多樣性和功能的了解。研究人員利用這些模型,在全球海洋病毒資料中為未標註的病毒序列加上有意義的標籤,擴展了病毒蛋白質家族的標註範圍。這方法有助於找出重要的病毒蛋白質,像是海洋微型藍綠藻中的整合酶和廣泛病毒元素中的蛋白質外殼。透過蛋白質語言模型,改善了病毒蛋白質的功能標註,有助於辨識不同病毒序列之間基因組組織的相似性,補充了現有的標註方法。 PubMed DOI

這篇文章討論了自然語言處理(NLP)和大型語言模型(LLMs)在傳染病管理的應用,列舉了15個研究案例,像是利用GPT-4檢測尿路感染、BERTweet監測萊姆病。雖然這些模型展現了潛力,但效果有差異。未來需更深入研究,充分運用人工智慧在疾病診斷、監測、預測和追蹤傳染病管理的流行病學趨勢。 PubMed DOI

公開資料庫中註釋蛋白質序列,尤其是病毒蛋白質,挑戰性高。新方法結合大型語言模型(LLMs)和基於嵌入的軟對齊算法,提升註釋效率和可解釋性。這方法在識別和註釋序列方面優於傳統方法,尤其在病毒基因組學中。LLMs有潛力改進蛋白質功能推斷,提供更有效和精確的分子生物學研究方法。 PubMed DOI

透過序列數據訓練的語言模型可學習蛋白質設計原則,但蛋白功能受結構影響。結合語言模型與結構資訊,可引導蛋白演化,改良抗SARS-CoV-2抗體,增強對病毒變異的中和能力。整合結構數據有助於找出有效蛋白演化路徑,無需特定訓練。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

在生態學和進化生物學中,從文獻中整合和建模數據對於產生見解至關重要,但手動篩選數百篇文章非常耗時。隨著文獻量增加,電腦方法能提升研究效率和透明度。最近的機器學習和語言模型進展改變了文本挖掘技術,這篇綜述將方法分為三類:基於頻率、傳統自然語言處理和深度學習模型。文中探討了建模策略、生成訓練數據及挑戰,並提出解決方案以增強這些方法在生態和進化研究中的應用。 PubMed DOI

II類微菌素是一種有潛力的新型抗生素,但目前識別的數量有限。本研究探討利用蛋白質大型語言模型的數值嵌入來檢測細菌基因組中的微菌素,並與傳統的序列比對方法(如BLAST)進行比較。結果顯示,嵌入法在識別已知II類微菌素上更有效,還能發現一些傳統方法忽略的新型微菌素。隨著抗生素抗藥性問題日益嚴重,發現新的抗菌肽至關重要,這項研究為對抗細菌感染提供了新策略。 PubMed DOI