原始文章

為蛋白質準確標註功能和催化活性是一項挑戰,尤其是對於缺乏同源蛋白的情況。傳統方法多依賴蛋白質序列,忽略了標籤的語義。為了解決這個問題,我們提出了FAPM模型,結合了蛋白質序列和自然語言,能生成基因本體(GO)功能術語和催化活性預測。研究顯示,FAPM在理解蛋白質特性上表現優於傳統模型,並在噬菌體蛋白的測試中達到最先進的結果。這種方法為蛋白質註釋提供了新的可能性。線上演示可在此網址找到:https://huggingface.co/spaces/wenkai/FAPM_demo。 PubMed DOI


站上相關主題文章列表

ProGen是一個深度學習模型,可以像製造句子一樣,生成具有特定功能的蛋白質序列。透過大量蛋白質數據訓練後,ProGen可以微調,提升生成目標蛋白質的能力。這個模型可以創造人工蛋白質,效率與天然蛋白質相當,即使序列不同。適用於不同蛋白質家族,如輔酶A轉移酶和丙酮酸脫氫酶。 PubMed DOI

設計新型蛋白質對生物醫學領域至關重要。一種新方法利用統計模型,受自然語言處理啟發,用於設計氨基酸序列。這方法專注於生成蛋白質結構域序列,而非單一蛋白質。通過將問題視為結構域間翻譯,模型可生成配對序列。經評估發現,此方法優於現有策略,並探討了預訓練語言模型和Alphafold 2的應用。更多資訊可於GitHub取得。 PubMed DOI

最新的語言模型對蛋白質研究有重大影響,特別是GPT-4等模型展現出潛力,可應用在蛋白質領域。蛋白質語言模型已顯示出預測和創新蛋白質的能力,並取得重要進展。本文討論了這個新興領域的機會和挑戰,並提供了LLMs對蛋白質研究的影響。 PubMed DOI

生物資訊學中,分析蛋白質結構對於尋找藥物、診斷疾病和研究演化至關重要。目前的方法偏向序列,忽略了3D結構。這項研究提出結合3D結構資訊,特別是接觸圖,設計蛋白質在歐幾里得空間的數值嵌入。這些嵌入結合了大型語言模型和傳統技術特徵,在監督式蛋白質分析中表現更好。實驗結果顯示,這種方法在蛋白質功能預測方面優於現有方法。 PubMed DOI

蛋白質在藥物研發中扮演重要角色,但傳統方法太貴又太慢。研究引入了一個快速又精確的分類器,使用了帶有ESM-2嵌入的蛋白質語言模型(PLM),準確率達95.11%。比較結果顯示,ESM-2嵌入比PSSM特徵更優。同時,開發了基於GPT-2的端對端模型,將大型語言模型成功應用在蛋白質辨識上,並經Pharos數據集驗證表現。 PubMed DOI

UniProtKB中有超過2.51億個蛋白質,但只有0.25%有Pfam家族域標註,可能的家族域超過15000個。提出了基於轉移學習的新方法,使用大型語言模型(LLMs)在未標註數據上訓練,再在已標註數據上微調,準確性提高60%。該方法採用先進的LLMs和機器學習技術,程式碼和資料可於GitHub找到。 PubMed DOI

研究蛋白質功能對找疾病治療和新藥很重要。GPSFun網站利用深度學習技術,幫助蛋白質功能註釋。它可預測蛋白質結構和功能,如結合位點和亞細胞位置,不需多重對齊或實驗結構,比現有方法更有效。免費使用網址:https://bio-web1.nscc-gz.cn/app/GPSFun。 PubMed DOI

蛋白質在生物學中扮演關鍵角色,了解其結構和功能至關重要。多模蛋白質表示學習(MPRL)整合了一級和三級結構,使用不同技術捕捉蛋白質細節,提升了在蛋白質相關任務中的表現。這個框架有助於深入了解蛋白質動態,並支持未來研究。原始碼在https://github.com/HySonLab/Protein_Pretrain。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)預測蛋白質相變(PPTs),對於理解與年齡相關的疾病如阿茲海默症非常重要。研究者微調了一個LLM,評估蛋白質序列變異對PPTs的影響,結果顯示該模型的表現超越傳統方法,並結合隨機森林模型提升可解釋性。此外,研究發現阿茲海默症相關蛋白質的聚集增加與基因表達下降有關,暗示可能存在自然防禦機制來對抗該疾病。 PubMed DOI

這項研究強調微調蛋白質語言模型在各種預測任務中的有效性,顯示針對特定任務的監督式微調能提升表現。研究比較了三個先進模型(ESM2、ProtT5、Ankh)在八個任務上的表現,結果顯示高效的微調能達到類似改善,並顯著減少資源消耗和訓練時間。特別對於數據集有限的任務,如預測單個蛋白質的適應性景觀,微調的做法更具價值。作者還提供了使用者友好的筆記本,方便進行模型微調。 PubMed DOI