原始文章

研究蛋白質-蛋白質相互作用(PPIs)對於理解生物過程非常重要,尤其是在抗體與抗原、酶與抑制劑或促進劑的互動上。近期針對PPIs的研究,特別是與SARS-CoV-2的關聯,推動了疫苗的開發。雖然已有數據庫整理PPI網絡,但文本挖掘方法在新研究或少數物種中顯得尤為重要。比較不同的自然語言處理(NLP)工具後發現,傳統方法真陽性率高但網絡過度連接,機器學習方法則網絡結構相似但真陽性率低,而大型語言模型的表現則介於兩者之間。選擇合適的NLP方法需根據研究需求和文本量。 PubMed DOI


站上相關主題文章列表

研究比較了21個大型語言模型(LLMs)在自動文本挖掘生物途徑的效能,專注於基因調控和KEGG途徑辨識。結果顯示,各模型表現不同,像是ChatGPT-4和Claude-Pro這類基於API的模型表現比開源模型好。LLMs在生物醫學研究中有潛力,可用於基因網絡分析和途徑對應,但因性能不同,選擇適合的模型至關重要。 PubMed DOI

蛋白質語言模型是強大的工具,可預測蛋白質結構、發現新功能性序列,並評估突變影響。研究指出這些模型可預測蛋白質間的相互作用熱點,並與傳統方法媲美。雖然成本效益高,但解釋特定特徵仍具挑戰性。 PubMed DOI

蛋白質在藥物研發中扮演重要角色,但傳統方法太貴又太慢。研究引入了一個快速又精確的分類器,使用了帶有ESM-2嵌入的蛋白質語言模型(PLM),準確率達95.11%。比較結果顯示,ESM-2嵌入比PSSM特徵更優。同時,開發了基於GPT-2的端對端模型,將大型語言模型成功應用在蛋白質辨識上,並經Pharos數據集驗證表現。 PubMed DOI

了解基因、疾病和藥物對藥物開發很重要。研究指出,基於BERT的模型在識別蛋白質-蛋白質相互作用(PPIs)方面表現最佳,BioBERT召回率和F1分數最高,PubMedBERT精確度最高。即使沒有生物醫學背景,GPT-4也表現優秀。這些結果顯示GPT模型在檢測PPIs上有應用價值,值得進一步研究微調以應用於生物醫學任務。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)預測蛋白質相變(PPTs),對於理解與年齡相關的疾病如阿茲海默症非常重要。研究者微調了一個LLM,評估蛋白質序列變異對PPTs的影響,結果顯示該模型的表現超越傳統方法,並結合隨機森林模型提升可解釋性。此外,研究發現阿茲海默症相關蛋白質的聚集增加與基因表達下降有關,暗示可能存在自然防禦機制來對抗該疾病。 PubMed DOI

II類微菌素是一種有潛力的新型抗生素,但目前識別的數量有限。本研究探討利用蛋白質大型語言模型的數值嵌入來檢測細菌基因組中的微菌素,並與傳統的序列比對方法(如BLAST)進行比較。結果顯示,嵌入法在識別已知II類微菌素上更有效,還能發現一些傳統方法忽略的新型微菌素。隨著抗生素抗藥性問題日益嚴重,發現新的抗菌肽至關重要,這項研究為對抗細菌感染提供了新策略。 PubMed DOI

檢測蛋白質-蛋白質相互作用(PPIs)對於理解遺傳機制和疾病發展非常重要。隨著生物醫學文獻的增加,自動化提取這些相互作用的需求也愈加迫切。本研究評估了多種基於變壓器的模型在PPIs識別中的效果,發現BioBERT在多個數據集上表現最佳,達到91.95%的召回率。值得注意的是,雖然GPT-4並未專門針對生物醫學文本訓練,但其表現也相當出色,顯示出在生物醫學文獻挖掘上的潛力。相關代碼和數據集可在GitHub上獲得。 PubMed DOI

這項研究評估了21個大型語言模型(LLMs)在檢索生物知識的有效性,特別針對基因調控和KEGG途徑。隨著生物文獻的快速增長,傳統手動整理已不再足夠,LLMs成為一個有前景的替代方案。 結果顯示,模型性能差異明顯,GPT-4和Claude-Pro在基因調控關係的F1分數分別為0.4448和0.4386,KEGG途徑的Jaccard指數也表現強勁。相比之下,開源模型表現較差。研究強調選擇合適模型的重要性,並提供了LLMs在生物研究中的應用見解,相關代碼已在GitHub上公開。 PubMed DOI

預測蛋白質-蛋白質相互作用位點對於理解生化過程非常重要,尤其是在病毒與受體蛋白質的互動中,有助於疾病機制和藥物開發。傳統方法面臨處理時間長、成本高和準確性低的挑戰。為了解決這些問題,我們提出了一種新穎的網絡,利用多重信息融合來預測相互作用位點。透過圖卷積網絡、雙向長短期記憶(BiLSTM)和ProtT5模型,我們的模型在多項評估指標上超越現有方法,顯示出其有效性和優越性。 PubMed DOI

這項研究探討了研究人員在處理大量生物醫學文獻時的挑戰,並提出了一種混合方法,結合文本挖掘、圖神經網絡(GNNs)和微調的大型語言模型(LLMs)。這種方法旨在增強生物醫學知識圖譜,並解釋預測的關係。研究顯示,該方法在蛋白質相互作用數據集上達到0.772的馬修斯相關係數,並在失眠研究中識別出25個新的人類蛋白質相互作用。這種方法有助於加速治療靶點的發現,並提高文獻分析的效率。 PubMed DOI