原始文章

我們開發了一個自動化工具,利用大型語言模型(LLM)來簡化從超過81,000篇與蛋白質資料庫(PDB)相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰,因為表達條件和純化策略的變化常常耗時。主要發現包括:Tris緩衝液最常用,聚組氨酸標籤佔主導,最佳表達溫度為16-20 °C,誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI


站上相關主題文章列表

生物資訊學中,分析蛋白質結構對於尋找藥物、診斷疾病和研究演化至關重要。目前的方法偏向序列,忽略了3D結構。這項研究提出結合3D結構資訊,特別是接觸圖,設計蛋白質在歐幾里得空間的數值嵌入。這些嵌入結合了大型語言模型和傳統技術特徵,在監督式蛋白質分析中表現更好。實驗結果顯示,這種方法在蛋白質功能預測方面優於現有方法。 PubMed DOI

蛋白質在藥物研發中扮演重要角色,但傳統方法太貴又太慢。研究引入了一個快速又精確的分類器,使用了帶有ESM-2嵌入的蛋白質語言模型(PLM),準確率達95.11%。比較結果顯示,ESM-2嵌入比PSSM特徵更優。同時,開發了基於GPT-2的端對端模型,將大型語言模型成功應用在蛋白質辨識上,並經Pharos數據集驗證表現。 PubMed DOI

UniProtKB中有超過2.51億個蛋白質,但只有0.25%有Pfam家族域標註,可能的家族域超過15000個。提出了基於轉移學習的新方法,使用大型語言模型(LLMs)在未標註數據上訓練,再在已標註數據上微調,準確性提高60%。該方法採用先進的LLMs和機器學習技術,程式碼和資料可於GitHub找到。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)預測蛋白質相變(PPTs),對於理解與年齡相關的疾病如阿茲海默症非常重要。研究者微調了一個LLM,評估蛋白質序列變異對PPTs的影響,結果顯示該模型的表現超越傳統方法,並結合隨機森林模型提升可解釋性。此外,研究發現阿茲海默症相關蛋白質的聚集增加與基因表達下降有關,暗示可能存在自然防禦機制來對抗該疾病。 PubMed DOI

酵素在生物技術中非常重要,應用於食品、洗衣、製藥等領域,因為它們能催化化學反應。酵素的活性受pH值影響,每種酵素在特定pH範圍內表現最佳。為了解決這個挑戰,我們開發了一種基於語言模型的方法,預測酵素序列的最佳pH範圍。透過多種切分策略,我們的機器學習模型在不同蛋白質家族中展現高準確性,能快速識別具有理想pH的酵素,促進高通量探索。 PubMed DOI

研究蛋白質-蛋白質相互作用(PPIs)對於理解生物過程非常重要,尤其是在抗體與抗原、酶與抑制劑或促進劑的互動上。近期針對PPIs的研究,特別是與SARS-CoV-2的關聯,推動了疫苗的開發。雖然已有數據庫整理PPI網絡,但文本挖掘方法在新研究或少數物種中顯得尤為重要。比較不同的自然語言處理(NLP)工具後發現,傳統方法真陽性率高但網絡過度連接,機器學習方法則網絡結構相似但真陽性率低,而大型語言模型的表現則介於兩者之間。選擇合適的NLP方法需根據研究需求和文本量。 PubMed DOI

這項研究旨在從科學文獻中有效收集金屬有機框架(MOFs)的實驗數據,以解決稀缺數據的問題,並提升材料科學中機器學習的應用質量。研究團隊利用先進的大型語言模型,系統化提取並整理MOF數據,成功從超過40,000篇文章中彙編出詳細的合成條件和性質數據。整理後的數據庫用於分析合成條件、性質和結構之間的關係,並創建合成條件推薦系統,為優化合成策略提供實用工具,顯示實驗數據集在推進MOFs研究中的重要性。 PubMed DOI

這項研究強調了先進的大型語言模型(LLM),特別是Pro-PRIME模型,在增強結合生長激素的VHH抗體的穩定性方面的成效。考慮到蛋白質常需在極端環境中運作,研究探討了設計更高穩定性和功能性蛋白質的挑戰。經過兩輪設計,成功產生了一種突變抗體,具備更好的熱穩定性、極端pH抵抗力及更強的結合親和力。這是LLM設計的蛋白質產品首次成功應用於大規模生產,顯示其在蛋白質工程上的潛力。 PubMed DOI

蛋白質語言模型(pLMs)正逐漸成為理解蛋白質序列及其功能的重要工具,特別是在預測分子功能方面,如識別結合位點和評估基因變異影響。不過,單靠pLM嵌入在蛋白質結構預測上仍無法與最佳方法相提並論。透過微調這些pLM,可以提升其效率和準確性,尤其在實驗數據不足的情況下。總的來說,pLM為計算生物學與實驗生物學的整合鋪路,預示著蛋白質設計的新時代。 PubMed DOI

這項研究評估了幾種蛋白質大型語言模型(LLMs),如ESM2、ESM1b和ProtBERT,在預測酶功能方面的表現,並與傳統的序列比對方法BLASTp進行比較。雖然BLASTp通常表現較佳,但LLMs,特別是結合全連接神經網絡時,超越了傳統的一熱編碼模型。ESM2被認為是最有效的LLM,尤其在挑戰性註釋任務中表現突出。研究顯示,LLMs雖未達到BLASTp的黃金標準,但在序列同一性低的情況下,能有效預測難以註釋的酶的EC編號,並強調兩者可互補,提升酶的註釋效果。 PubMed DOI