原始文章

Cell2Sentence (C2S) 是一種新方法,旨在將大型語言模型應用於單細胞轉錄組學。它透過將基因表達數據轉換為「細胞句子」,在自然語言處理與生物數據之間架起橋樑。C2S 允許對語言模型進行微調,以執行多種生物學任務,如生成和註解細胞類型。實驗顯示,微調後的 GPT-2 能生成生物學上有效的細胞類型,顯示出語言模型對單細胞生物學的深入理解。C2S 提供了一個多功能且友好的框架,結合自然語言處理與轉錄組學,適用於各種生物學應用。 PubMed DOI


站上相關主題文章列表

這篇論文探討如何將大型語言模型(LLMs)與單細胞基因表達數據結合,重點在基因嵌入矩陣和基因表達矩陣的整合。主要挑戰是有效合併這兩種數據,以提升細胞間距離的定義。作者提出了一個計算效率高的解決方案,顯著改善了六個真實數據集上相似細胞類型的聚類,顯示其在測量細胞間距離上的有效性。 PubMed DOI

這項研究介紹了GenePT,一種新方法,利用ChatGPT的嵌入來表示基因,提供比傳統依賴大量基因表達數據的模型訓練更簡單的替代方案。研究人員使用GPT-3.5為單個基因生成嵌入,並透過加權平均創建單細胞嵌入,有效編碼細胞信息。此外,他們根據基因表達水平生成細胞的句子嵌入。GenePT在基因屬性和細胞類型分類等任務中表現優異,顯示出大型語言模型嵌入在捕捉單細胞生物知識上的潛力。 PubMed DOI

空間轉錄組學是理解組織細胞組成的重要工具,尤其在癌症研究中,腫瘤微環境至關重要。然而,數據的複雜性使解釋變得困難。本研究探討大型語言模型(LLMs)在分析小鼠黑色素瘤模型的空間轉錄組數據的應用。研究發現Claude 3.5 Sonnet在斑點量化和模式識別上表現最佳,並開發出系統化工作流程,幫助分析腫瘤免疫景觀。該模型揭示了免疫抑制機制,並顯示LLMs在空間轉錄組學中的潛力,能有效提升數據解釋的能力。 PubMed DOI

預訓練語言模型對自然語言處理(NLP)影響深遠,現在也啟發了基因組學的相關研究。開發高品質的基因組基礎模型(FMs)成本高且需大量資源,因此本研究提出L2G,透過現有的大型語言模型(LLMs)來應用於基因組任務。L2G運用「跨模態轉移」的概念,並結合神經架構搜索(NAS)及三階段訓練過程。結果顯示,L2G在多項基因組基準測試中表現優於微調的基因組FMs,特別在增強子活性預測方面也有卓越表現,顯示語言模型在基因組學的潛力。 PubMed DOI

單細胞多組學技術,特別是單細胞RNA測序(scRNA-seq),讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞,並利用word2vec技術生成基因的向量表示,我們能夠進行多尺度分析,識別細胞狀態與發展軌跡。這種方法不僅計算效率高,還能在不依賴高效能計算集群的情況下進行分析,成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

Omics 資料量暴增,超出現有分析能力,但大型語言模型(LLMs)能解決這問題。透過多模態基礎模型預訓練,可有效解析基因體、轉錄體等多元資料,應用於細胞分類、生物標記發現、基因調控等,推動 AI 驅動的生物研究,深入了解生命科學。 PubMed DOI

這篇論文提出一種結合GCN、Transformer和BERT的新型空間多尺度圖卷積網路(SGTB),用來分析空間轉錄體學資料。這方法能同時抓住細胞的局部和全域空間關聯,並用BERT提升語意表現,讓細胞分類和基因調控網路建構等任務更精準有效。 PubMed DOI

CellTypeAgent 是一款新工具,結合大型語言模型和資料庫驗證,能自動又精確地標註單細胞 RNA 定序資料的細胞類型。它比現有方法更準確、錯誤率更低,已在九個資料集、36 種組織、303 種細胞類型上測試,展現出快速又可靠的標註潛力。 PubMed

我們提出一種新方法,結合NCBI Gene的基因描述和大型語言模型,將單細胞RNA定序資料轉換成有意義的向量。做法是先找出每個細胞表現量最高的基因,擷取基因註解,再用語言模型轉成向量,並依表現量加權。這樣不只提升解釋性,也讓細胞分群和分析更精準。 PubMed

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 PubMed DOI