原始文章

sciL-aMA 是微軟推出的新深度學習框架,結合大型語言模型的基因嵌入和單細胞 RNA 定序資料,採用 paired-VAE 架構。這方法能同時為細胞和基因建立情境感知的表徵,提升批次校正、細胞分群和基因標記鑑定的效果,兼顧效率與可解釋性。原始碼在 GitHub:https://github.com/microsoft/sciLaMA PubMed DOI


站上相關主題文章列表

這篇論文探討如何將大型語言模型(LLMs)與單細胞基因表達數據結合,重點在基因嵌入矩陣和基因表達矩陣的整合。主要挑戰是有效合併這兩種數據,以提升細胞間距離的定義。作者提出了一個計算效率高的解決方案,顯著改善了六個真實數據集上相似細胞類型的聚類,顯示其在測量細胞間距離上的有效性。 PubMed DOI

這項研究介紹了GenePT,一種新方法,利用ChatGPT的嵌入來表示基因,提供比傳統依賴大量基因表達數據的模型訓練更簡單的替代方案。研究人員使用GPT-3.5為單個基因生成嵌入,並透過加權平均創建單細胞嵌入,有效編碼細胞信息。此外,他們根據基因表達水平生成細胞的句子嵌入。GenePT在基因屬性和細胞類型分類等任務中表現優異,顯示出大型語言模型嵌入在捕捉單細胞生物知識上的潛力。 PubMed DOI

研究細胞如何對基因變化反應,對理解基因調控和性狀發展非常重要。高通量單細胞RNA測序技術提升了我們的分析能力,但仍需有效的計算模型來解釋和預測這些反應。 在此背景下,我們推出了scLAMBDA,一個深度生成學習框架,專注於建模和預測單細胞對基因擾動的反應。scLAMBDA結合大型語言模型的基因嵌入,能有效區分基線細胞狀態與擾動影響。 評估結果顯示,scLAMBDA在預測基因擾動結果上超越現有方法,準確性更高,且對新目標基因和擾動具良好泛化能力,支持多種下游分析,展現其實用性和靈活性。 PubMed DOI

空間轉錄組學是理解組織細胞組成的重要工具,尤其在癌症研究中,腫瘤微環境至關重要。然而,數據的複雜性使解釋變得困難。本研究探討大型語言模型(LLMs)在分析小鼠黑色素瘤模型的空間轉錄組數據的應用。研究發現Claude 3.5 Sonnet在斑點量化和模式識別上表現最佳,並開發出系統化工作流程,幫助分析腫瘤免疫景觀。該模型揭示了免疫抑制機制,並顯示LLMs在空間轉錄組學中的潛力,能有效提升數據解釋的能力。 PubMed DOI

單細胞多組學技術,特別是單細胞RNA測序(scRNA-seq),讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞,並利用word2vec技術生成基因的向量表示,我們能夠進行多尺度分析,識別細胞狀態與發展軌跡。這種方法不僅計算效率高,還能在不依賴高效能計算集群的情況下進行分析,成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

Omics 資料量暴增,超出現有分析能力,但大型語言模型(LLMs)能解決這問題。透過多模態基礎模型預訓練,可有效解析基因體、轉錄體等多元資料,應用於細胞分類、生物標記發現、基因調控等,推動 AI 驅動的生物研究,深入了解生命科學。 PubMed DOI

作者提出 scPEFT 方法,透過在主模型參數凍結下加上小型可訓練 adapter,讓單細胞大型語言模型(scLLMs)能用很少資料和算力快速適應新任務,且不會忘記原本知識。scPEFT 在多種生物任務表現都比 zero-shot 和傳統微調好,特別適合資源有限的研究人員推廣使用。 PubMed DOI

我們提出一種新方法,結合NCBI Gene的基因描述和大型語言模型,將單細胞RNA定序資料轉換成有意義的向量。做法是先找出每個細胞表現量最高的基因,擷取基因註解,再用語言模型轉成向量,並依表現量加權。這樣不只提升解釋性,也讓細胞分群和分析更精準。 PubMed

SCassist 是一款 R 套件,結合 GPT、Gemini、Llama3 等大型語言模型,協助分析單細胞 RNA 定序資料。它能自動化過濾、正規化、分群、細胞註解等流程,讓 scRNA-seq 分析更簡單好上手。詳細教學和下載可到 GitHub 查詢。 PubMed DOI

這篇研究提出 scATD 框架,運用大型語言模型,能快速預測單細胞 RNA 定序資料的藥物敏感性。scATD 不用重新訓練模型就能準確預測新病患,靠的是創新的風格轉換和知識蒸餾技術。測試結果顯示,scATD 在準確度、泛用性和效率都比現有方法更好,還能更清楚解釋基因和藥物的關聯,對精準腫瘤醫學很有幫助。 PubMed DOI