原始文章

基於變壓器的語言模型(LLMs)在分析生物序列數據上表現優異,因為它們能學習複雜關係,類似於處理自然語言的方式。我們的研究聚焦於DNABERT,這是一個專為人類基因組訓練的DNA語言模型,使用重疊的k-mer作為標記。我們開發了一種方法來研究模型的學習過程,並評估其在特定任務中的有效性。結果顯示,雖然重疊k-mer模型在基因組相關任務中表現良好,但在學習較大序列上下文時卻面臨挑戰,這強調了檢視生物LLMs知識表徵的重要性。 PubMed DOI


站上相關主題文章列表

Transformer模型如BERT和GPT-3在自然語言處理領域有顯著進展,也廣泛運用在生物資訊研究。本文討論了Transformer結構對生物資訊的影響,從序列分析到藥物發現。雖然面臨數據異質性和計算成本挑戰,但也提及未來研究的機會。呼籲自然語言處理研究者、生物資訊學家和生物學家攜手合作,探索Transformer模型在生物資訊領域的新應用。 PubMed DOI

大型語言模型(LLMs)是強大的人工智慧模型,應用在自然語言處理等任務上表現優異。透過深度學習技術,利用龐大數據訓練神經網絡的參數。LLMs在生物資訊領域展現潛力,可能超越語言建模能力。本文討論了知名的LLMs如BERT和GPT在生物資訊中的應用,包括基因組學、轉錄組學、蛋白質組學、藥物發現和單細胞分析,並強調了LLMs在應對生物資訊挑戰上的潛力。 PubMed DOI

ProkBERT 模型家族利用大型語言模型,應用在微生物學的基因組任務上,透過遷移學習和自監督方法,有效分析微生物數據。這些模型採用「本地上下文感知」分詞技術,在預測啟動子和體外噬菌體識別等任務上表現優異,勝過現有工具,提供高準確性和泛化能力,為微生物學機器學習帶來重大進展,並可在 GitHub 和 HuggingFace 上供社群使用。 PubMed DOI

化學和生物學領域正運用大型語言模型,像是變壓器(transformers),來開創治療方法和理解的新可能性。研究團隊開發了GPCR-BERT模型,專門用於分析重要藥物靶點G蛋白偶聯受體(GPCRs)的序列設計。透過預先訓練蛋白質模型並微調預測任務,揭示了氨基酸序列、配體選擇性和GPCRs構象基序之間的關係。這個高準確性的模型提供了對受體構象內部相互作用的深入洞察。 PubMed DOI

像ChatGPT這樣的大型語言模型非常厲害,不僅能處理人類語言,還能應用在分析DNA和蛋白質等生物數據上。它們可以辨識生物數據中的複雜規律,成為預測細胞系統的強力工具。這篇文章討論了各種大型語言模型及其在生物學中的應用,特別強調了它們在植物領域的潛力,但在這個領域中的應用仍不太普遍。 PubMed DOI

大型語言模型(LLMs)在醫學和臨床資訊學中扮演重要角色,能幫助突破和個人化治療。透過分析複雜的生物數據,揭示基因組學、蛋白質結構和健康記錄中的隱藏模式,對基因組分析、藥物開發和精準醫學有所助益。然而,必須面對數據偏見、隱私和道德等挑戰,才能負責任地應用。克服這些障礙將帶來分子生物學和製藥研究的重大進展,造福個人和社區。 PubMed DOI

在分子生物學中,探索分子間的關聯性至關重要,而大型語言模型(LLMs)的出現大幅推進了這一領域。這些模型在自然語言處理和圖像生成上表現優異,能夠從龐大數據集中捕捉複雜關係,成為基礎模型。 目前的數據集涵蓋RNA、DNA、蛋白質序列及單細胞和空間轉錄組,為模型開發提供了豐富基礎。未來,基礎模型的發展將專注於提升可解釋性、整合多組學數據及增強預測能力,對於改進我們對生物系統的理解及治療策略具有巨大潛力。 PubMed DOI

這項研究探討微小RNA(miRNA)與信使RNA(mRNA)之間的互動,並強調從PubMed文章中提取這些互動的挑戰。研究人員建立了一個miRNA-mRNA互動語料庫(MMIC),並評估了多種機器學習和大型語言模型的表現。結果顯示,PubMedBERT在精確度和召回率上表現最佳,達到0.783。而Llama-2在零樣本和三樣本實驗中也有不錯的表現,特別是在召回率上優於其他模型,但在精確度上仍需改進。這顯示Llama-2在提取miRNA-mRNA互動方面具有潛力。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

這項研究探討基因組語言模型(gLMs)在蛋白質相關任務上的表現,並與蛋白質語言模型(pLMs)進行比較。研究人員整理了五個數據集,將編碼DNA序列(CDS)與蛋白質連結。結果顯示,gLMs在某些任務上表現優於pLMs,特別是使用檢索的CDS時。此外,聯合基因組-蛋白質模型展現了更佳的表現。研究還開發了一種新的核苷酸變壓器模型,使用3mer標記化,表現優於6mer版本。這顯示gLMs在蛋白質組學中的潛力,並建議統一基因組學與蛋白質組學的方法。作者已公開代碼和數據集。 PubMed DOI