原始文章

Cell2Sentence (C2S) 是一種新方法,旨在將大型語言模型應用於單細胞轉錄組學。它透過將基因表達數據轉換為「細胞句子」,在自然語言處理與生物數據之間架起橋樑。C2S 允許對語言模型進行微調,以執行多種生物學任務,如生成和註解細胞類型。實驗顯示,微調後的 GPT-2 能生成生物學上有效的細胞類型,顯示出語言模型對單細胞生物學的深入理解。C2S 提供了一個多功能且友好的框架,結合自然語言處理與轉錄組學,適用於各種生物學應用。 PubMed DOI


站上相關主題文章列表

單細胞RNA分析中標註細胞類型耗時且需要專業知識,但使用GPT-4大型語言模型能自動且精確標註。它與手動標註一致,可減少標註的工作量。為了推廣GPT-4的應用,開發了開源軟體套件GPTCelltype。 PubMed DOI

在單細胞RNA序列分析中,細胞類型的標註是重要的,但也很耗時。GPT-4,一個強大的語言模型,可以利用標記基因信息自動準確地標註細胞類型。已經證明它在各種組織和細胞類型上表現良好,有潛力減少標註細胞類型所需的努力和專業知識。 PubMed DOI

單細胞生物學領域近期有新進展,Geneformer和scGPT等複雜模型能從基因表現數據學習功能。GenePT是一簡單替代方案,利用ChatGPT嵌入基因,無需大量數據或訓練即可生成基因和細胞嵌入。GenePT在各項任務上表現優異,顯示利用語言模型嵌入可有效建立生物模型。 PubMed DOI

在這項研究中,我們展示了GPT-4可以在單細胞RNA序列分析中使用標記基因數據準確標記細胞類型。GPT-4的標記與各種組織和細胞類型的手動標記相符,簡化了細胞類型標記的過程。我們還開發了一個名為GPTCelltype的R軟體套件,用於使用GPT-4進行自動細胞類型標記。 PubMed DOI

像ChatGPT這樣的大型語言模型非常厲害,不僅能處理人類語言,還能應用在分析DNA和蛋白質等生物數據上。它們可以辨識生物數據中的複雜規律,成為預測細胞系統的強力工具。這篇文章討論了各種大型語言模型及其在生物學中的應用,特別強調了它們在植物領域的潛力,但在這個領域中的應用仍不太普遍。 PubMed DOI

這篇論文探討如何將大型語言模型(LLMs)與單細胞基因表達數據結合,重點在基因嵌入矩陣和基因表達矩陣的整合。主要挑戰是有效合併這兩種數據,以提升細胞間距離的定義。作者提出了一個計算效率高的解決方案,顯著改善了六個真實數據集上相似細胞類型的聚類,顯示其在測量細胞間距離上的有效性。 PubMed DOI

這項研究介紹了GenePT,一種新方法,利用ChatGPT的嵌入來表示基因,提供比傳統依賴大量基因表達數據的模型訓練更簡單的替代方案。研究人員使用GPT-3.5為單個基因生成嵌入,並透過加權平均創建單細胞嵌入,有效編碼細胞信息。此外,他們根據基因表達水平生成細胞的句子嵌入。GenePT在基因屬性和細胞類型分類等任務中表現優異,顯示出大型語言模型嵌入在捕捉單細胞生物知識上的潛力。 PubMed DOI

空間轉錄組學是理解組織細胞組成的重要工具,尤其在癌症研究中,腫瘤微環境至關重要。然而,數據的複雜性使解釋變得困難。本研究探討大型語言模型(LLMs)在分析小鼠黑色素瘤模型的空間轉錄組數據的應用。研究發現Claude 3.5 Sonnet在斑點量化和模式識別上表現最佳,並開發出系統化工作流程,幫助分析腫瘤免疫景觀。該模型揭示了免疫抑制機制,並顯示LLMs在空間轉錄組學中的潛力,能有效提升數據解釋的能力。 PubMed DOI

預訓練語言模型對自然語言處理(NLP)影響深遠,現在也啟發了基因組學的相關研究。開發高品質的基因組基礎模型(FMs)成本高且需大量資源,因此本研究提出L2G,透過現有的大型語言模型(LLMs)來應用於基因組任務。L2G運用「跨模態轉移」的概念,並結合神經架構搜索(NAS)及三階段訓練過程。結果顯示,L2G在多項基因組基準測試中表現優於微調的基因組FMs,特別在增強子活性預測方面也有卓越表現,顯示語言模型在基因組學的潛力。 PubMed DOI

單細胞多組學技術,特別是單細胞RNA測序(scRNA-seq),讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞,並利用word2vec技術生成基因的向量表示,我們能夠進行多尺度分析,識別細胞狀態與發展軌跡。這種方法不僅計算效率高,還能在不依賴高效能計算集群的情況下進行分析,成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI