原始文章

Cell2Sentence (C2S) 是一種新方法,旨在將大型語言模型應用於單細胞轉錄組學。它透過將基因表達數據轉換為「細胞句子」,在自然語言處理與生物數據之間架起橋樑。C2S 允許對語言模型進行微調,以執行多種生物學任務,如生成和註解細胞類型。實驗顯示,微調後的 GPT-2 能生成生物學上有效的細胞類型,顯示出語言模型對單細胞生物學的深入理解。C2S 提供了一個多功能且友好的框架,結合自然語言處理與轉錄組學,適用於各種生物學應用。 PubMed DOI


站上相關主題文章列表

單細胞RNA分析中標註細胞類型耗時且需要專業知識,但使用GPT-4大型語言模型能自動且精確標註。它與手動標註一致,可減少標註的工作量。為了推廣GPT-4的應用,開發了開源軟體套件GPTCelltype。 PubMed DOI

在單細胞RNA序列分析中,細胞類型的標註是重要的,但也很耗時。GPT-4,一個強大的語言模型,可以利用標記基因信息自動準確地標註細胞類型。已經證明它在各種組織和細胞類型上表現良好,有潛力減少標註細胞類型所需的努力和專業知識。 PubMed DOI

單細胞生物學領域近期有新進展,Geneformer和scGPT等複雜模型能從基因表現數據學習功能。GenePT是一簡單替代方案,利用ChatGPT嵌入基因,無需大量數據或訓練即可生成基因和細胞嵌入。GenePT在各項任務上表現優異,顯示利用語言模型嵌入可有效建立生物模型。 PubMed DOI

GeneGPT是一種新方法,教導大型語言模型利用NCBI網站回答基因組學問題。研究顯示GeneGPT在基準任務中表現優異,得分0.83超越其他模型。研究強調GeneGPT處理多跳問題的能力,並提供改進見解。程式碼和數據可在GitHub找到。 PubMed DOI

單細胞测序技術革新生醫領域,但數據變異挑戰多。新scLLMs可辨識共同模式,解決問題。現有scLLMs在零-shot表現待加強,需更好適應。PEFT策略提出,改進scLLMs細胞辨識,性能提升且參數減少90%。此法有效提升單細胞模型應用效率。 PubMed DOI

在這項研究中,我們展示了GPT-4可以在單細胞RNA序列分析中使用標記基因數據準確標記細胞類型。GPT-4的標記與各種組織和細胞類型的手動標記相符,簡化了細胞類型標記的過程。我們還開發了一個名為GPTCelltype的R軟體套件,用於使用GPT-4進行自動細胞類型標記。 PubMed DOI

像ChatGPT這樣的大型語言模型非常厲害,不僅能處理人類語言,還能應用在分析DNA和蛋白質等生物數據上。它們可以辨識生物數據中的複雜規律,成為預測細胞系統的強力工具。這篇文章討論了各種大型語言模型及其在生物學中的應用,特別強調了它們在植物領域的潛力,但在這個領域中的應用仍不太普遍。 PubMed DOI

研究指出使用 GPT-4 模型作為生物系統模擬器有潛力,稱為 SimulateGPT。專家評估發現在基因必需性和癌症存活預測等實驗中表現良好。這種語言模型或許可用於建立生物醫學模擬器,特別適用於處理大量以文字呈現的知識和複雜系統。未來發展可考慮整合網頁檢索、數學建模和實驗數據微調。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

這項研究探討基因組語言模型(gLMs)在蛋白質相關任務上的表現,並與蛋白質語言模型(pLMs)進行比較。研究人員整理了五個數據集,將編碼DNA序列(CDS)與蛋白質連結。結果顯示,gLMs在某些任務上表現優於pLMs,特別是使用檢索的CDS時。此外,聯合基因組-蛋白質模型展現了更佳的表現。研究還開發了一種新的核苷酸變壓器模型,使用3mer標記化,表現優於6mer版本。這顯示gLMs在蛋白質組學中的潛力,並建議統一基因組學與蛋白質組學的方法。作者已公開代碼和數據集。 PubMed DOI