原始文章

II類微菌素是一種有潛力的新型抗生素,但目前識別的數量有限。本研究探討利用蛋白質大型語言模型的數值嵌入來檢測細菌基因組中的微菌素,並與傳統的序列比對方法(如BLAST)進行比較。結果顯示,嵌入法在識別已知II類微菌素上更有效,還能發現一些傳統方法忽略的新型微菌素。隨著抗生素抗藥性問題日益嚴重,發現新的抗菌肽至關重要,這項研究為對抗細菌感染提供了新策略。 PubMed DOI


站上相關主題文章列表

研究發現,利用蛋白質語言模型能夠改善病毒序列註釋,發現新的病毒蛋白質,並擴展海洋病毒體系的註釋。這種方法在海洋微生物中找到新的DNA編輯蛋白質家族,提升病毒蛋白質的辨識,並帶來新的生物發現。 PubMed DOI

研究利用深度學習模型從生醫文獻中找出微生物與疾病的關係。研究者發現,調整模型並結合特定領域數據,顯著提升了效能,有些模型甚至達到最頂尖水準。這顯示預先訓練的語言模型在從科學文獻中擷取有用資訊方面有很大潛力,特別是在微生物組與疾病互動方面。 PubMed DOI

研究發現第二類微囊素具抗生素潛力,但因為短小且多樣,發現受限。利用蛋白語言模型探測微囊素於細菌基因組,比傳統BLAST更有效。可準確辨識微囊素,並發現被忽略的新微囊素。 PubMed DOI

大型語言模型(LLMs)是強大的人工智慧模型,應用在自然語言處理等任務上表現優異。透過深度學習技術,利用龐大數據訓練神經網絡的參數。LLMs在生物資訊領域展現潛力,可能超越語言建模能力。本文討論了知名的LLMs如BERT和GPT在生物資訊中的應用,包括基因組學、轉錄組學、蛋白質組學、藥物發現和單細胞分析,並強調了LLMs在應對生物資訊挑戰上的潛力。 PubMed DOI

蛋白質語言模型可幫助找出次級基因體樣本中的病毒基因組,增進對病毒多樣性和功能的了解。研究人員利用這些模型,在全球海洋病毒資料中為未標註的病毒序列加上有意義的標籤,擴展了病毒蛋白質家族的標註範圍。這方法有助於找出重要的病毒蛋白質,像是海洋微型藍綠藻中的整合酶和廣泛病毒元素中的蛋白質外殼。透過蛋白質語言模型,改善了病毒蛋白質的功能標註,有助於辨識不同病毒序列之間基因組組織的相似性,補充了現有的標註方法。 PubMed DOI

公開資料庫中註釋蛋白質序列,尤其是病毒蛋白質,挑戰性高。新方法結合大型語言模型(LLMs)和基於嵌入的軟對齊算法,提升註釋效率和可解釋性。這方法在識別和註釋序列方面優於傳統方法,尤其在病毒基因組學中。LLMs有潛力改進蛋白質功能推斷,提供更有效和精確的分子生物學研究方法。 PubMed DOI

蛋白質在藥物研發中扮演重要角色,但傳統方法太貴又太慢。研究引入了一個快速又精確的分類器,使用了帶有ESM-2嵌入的蛋白質語言模型(PLM),準確率達95.11%。比較結果顯示,ESM-2嵌入比PSSM特徵更優。同時,開發了基於GPT-2的端對端模型,將大型語言模型成功應用在蛋白質辨識上,並經Pharos數據集驗證表現。 PubMed DOI

大型語言模型(LLMs)在醫學和臨床資訊學中扮演重要角色,能幫助突破和個人化治療。透過分析複雜的生物數據,揭示基因組學、蛋白質結構和健康記錄中的隱藏模式,對基因組分析、藥物開發和精準醫學有所助益。然而,必須面對數據偏見、隱私和道德等挑戰,才能負責任地應用。克服這些障礙將帶來分子生物學和製藥研究的重大進展,造福個人和社區。 PubMed DOI

AMPs是短肽,可對抗微生物藥物的抗藥性。開發受到對人體細胞的毒性影響,難以控制。GPT-3已用於預測AMP活性和毒性,但簡單模型如RNN和SVM表現更佳。建議目前使用簡單模型,但需重新評估大型語言模型的潛力。 PubMed DOI

噬菌體(phages)是微生物社群中重要但尚未完全了解的成分,因為它們需要細菌宿主來繁殖,能反映生態系統特徵和環境壓力。高通量測序技術已揭示噬菌體族群的多樣性,但病毒基因組的多樣性使得許多基因缺乏適當註解,限制了我們的理解。為了有效應用噬菌體於人類和環境健康,需發展新方法來組織和註解病毒序列。最近在自我監督學習方面的進展顯示出增強病毒蛋白同源性檢測的潛力,特別是在海洋病毒組的研究中。這篇綜述探討了大型語言模型在病毒註解中的潛力與挑戰,強調創新方法的重要性。 PubMed DOI