原始文章

第四型分泌系統(T4SS)是多種細菌的分泌機制,能幫助它們感染宿主並操控細胞通訊。研究中開發的T4Seeker模型,專門用來預測第四型分泌效應子(T4SEs),並以第三型和第六型分泌效應子作為負樣本進行訓練。T4Seeker在驗證集和獨立測試集上分別達到0.947和0.970的曲線下面積(AUC),顯示出優異的預測性能。與現有模型相比,T4Seeker結合傳統特徵與大型語言模型特徵,展現更高的準確性和穩健性,成為未來研究的重要工具。 PubMed DOI


站上相關主題文章列表

研究使用XLNET、BERT和DNABERT等自然語言處理模型,成功預測藍綠藻的啟動子,進而合成化合物。開發了TSSNote-CyaPromBERT平台,方便數據提取和預測。研究指出,這些模型對分析DNA序列及辨識新菌株的啟動子區域相當有幫助。 PubMed DOI

研究發現,利用蛋白質語言模型能夠改善病毒序列註釋,發現新的病毒蛋白質,並擴展海洋病毒體系的註釋。這種方法在海洋微生物中找到新的DNA編輯蛋白質家族,提升病毒蛋白質的辨識,並帶來新的生物發現。 PubMed DOI

研究發現第二類微囊素具抗生素潛力,但因為短小且多樣,發現受限。利用蛋白語言模型探測微囊素於細菌基因組,比傳統BLAST更有效。可準確辨識微囊素,並發現被忽略的新微囊素。 PubMed DOI

蛋白質語言模型可幫助找出次級基因體樣本中的病毒基因組,增進對病毒多樣性和功能的了解。研究人員利用這些模型,在全球海洋病毒資料中為未標註的病毒序列加上有意義的標籤,擴展了病毒蛋白質家族的標註範圍。這方法有助於找出重要的病毒蛋白質,像是海洋微型藍綠藻中的整合酶和廣泛病毒元素中的蛋白質外殼。透過蛋白質語言模型,改善了病毒蛋白質的功能標註,有助於辨識不同病毒序列之間基因組組織的相似性,補充了現有的標註方法。 PubMed DOI

毒性是治療性肽開發的一大挑戰,常導致臨床試驗失敗。我們的團隊在2013年推出了ToxinPred,預測肽毒性的工具。這篇論文介紹了ToxinPred的升級版,提升了預測的可靠性與準確性。我們結合了機器學習和深度學習技術,改善了靈敏度與特異性之間的平衡,並在獨立數據集上取得了優異的表現。我們還推出了ToxinPred3的獨立軟體包和網頁伺服器,方便科學社群使用,網址為 https://github.com/raghavagps/toxinpred3 和 https://webs.iiitd.edu.in/raghava/toxinpred3/。 PubMed DOI

T細胞受體(TCR)在免疫系統中非常重要,了解其複雜性能提升我們對癌症免疫反應的預測能力。現有方法常忽略TCR序列間的相互作用,影響預測效果。為了解決這個問題,我們推出了BertTCR,一個新穎的深度學習框架,能從TCR中提取更豐富的上下文信息。BertTCR在甲狀腺癌檢測上,曲線下面積(AUC)提升21個百分點,超越三種主流方法,並在2000多個TCR文庫上訓練,展現出強大的分類能力,對癌症免疫狀態預測具有良好前景。 PubMed DOI

這項研究介紹了iLLMAC,一個經過指令調整的大型語言模型,專注於利用游離DNA(cfDNA)進行癌症檢測。iLLMAC在1,135名癌症患者和1,106名對照組的血漿cfDNA數據上訓練,癌症診斷的AUROC達0.866,肝細胞癌(HCC)檢測則達0.924。隨著末端動機數量增加,性能提升,使用64個末端動機時,癌症診斷AUROC達0.886,HCC檢測AUROC達0.956。外部測試中,iLLMAC仍表現優異,顯示出基於LLM的指令調整在cfDNA癌症檢測中的潛力。 PubMed DOI

II類微菌素是一種有潛力的新型抗生素,但目前識別的數量有限。本研究探討利用蛋白質大型語言模型的數值嵌入來檢測細菌基因組中的微菌素,並與傳統的序列比對方法(如BLAST)進行比較。結果顯示,嵌入法在識別已知II類微菌素上更有效,還能發現一些傳統方法忽略的新型微菌素。隨著抗生素抗藥性問題日益嚴重,發現新的抗菌肽至關重要,這項研究為對抗細菌感染提供了新策略。 PubMed DOI

腫瘤定位肽(THPs)能特異性結合腫瘤細胞,對癌症治療和檢測有潛力,但傳統檢測方法速度慢且成本高。為解決此問題,我們推出LLM4THP,利用大型語言模型(LLMs)快速檢測THP。該方法結合多種序列特徵,並採用集成策略,透過兩層學習架構提升準確性。LLM4THP在多項指標上表現優於現有方法,源代碼和數據集可在GitHub上獲得。 PubMed DOI

這項研究旨在改善從基因測序中提取病原微生物的知識,特別是透過宏基因組下一代測序(mNGS)。傳統方法耗時且容易受主觀影響,因此研究人員開發了一種自動化的問答(QA)模型。 關鍵步驟包括創建名為MicrobeDB的新數據集,涵蓋618篇論文的3,161個樣本和224種病原微生物。透過微調模型和數據增強,最終在測試集上達到88.39%的精確匹配和93.18%的F1分數,顯示出高準確性。這項研究為臨床解釋mNGS結果提供了有價值的自動化方法。 PubMed DOI