原始文章

我們提出一種新方法,結合NCBI Gene的基因描述和大型語言模型,將單細胞RNA定序資料轉換成有意義的向量。做法是先找出每個細胞表現量最高的基因,擷取基因註解,再用語言模型轉成向量,並依表現量加權。這樣不只提升解釋性,也讓細胞分群和分析更精準。 PubMed


站上相關主題文章列表

Cell2Sentence (C2S) 是一種新方法,旨在將大型語言模型應用於單細胞轉錄組學。它透過將基因表達數據轉換為「細胞句子」,在自然語言處理與生物數據之間架起橋樑。C2S 允許對語言模型進行微調,以執行多種生物學任務,如生成和註解細胞類型。實驗顯示,微調後的 GPT-2 能生成生物學上有效的細胞類型,顯示出語言模型對單細胞生物學的深入理解。C2S 提供了一個多功能且友好的框架,結合自然語言處理與轉錄組學,適用於各種生物學應用。 PubMed DOI

這篇論文探討如何將大型語言模型(LLMs)與單細胞基因表達數據結合,重點在基因嵌入矩陣和基因表達矩陣的整合。主要挑戰是有效合併這兩種數據,以提升細胞間距離的定義。作者提出了一個計算效率高的解決方案,顯著改善了六個真實數據集上相似細胞類型的聚類,顯示其在測量細胞間距離上的有效性。 PubMed DOI

這份摘要強調大型語言模型(LLMs)在預測實驗結果方面的潛力,特別是在神經科學領域。研究介紹了BrainBench,一個評估LLMs預測能力的基準測試。結果顯示,LLMs在預測上可超越人類專家,而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時,預測也相對可靠,顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學,還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

這項研究介紹了GenePT,一種新方法,利用ChatGPT的嵌入來表示基因,提供比傳統依賴大量基因表達數據的模型訓練更簡單的替代方案。研究人員使用GPT-3.5為單個基因生成嵌入,並透過加權平均創建單細胞嵌入,有效編碼細胞信息。此外,他們根據基因表達水平生成細胞的句子嵌入。GenePT在基因屬性和細胞類型分類等任務中表現優異,顯示出大型語言模型嵌入在捕捉單細胞生物知識上的潛力。 PubMed DOI

研究細胞如何對基因變化反應,對理解基因調控和性狀發展非常重要。高通量單細胞RNA測序技術提升了我們的分析能力,但仍需有效的計算模型來解釋和預測這些反應。 在此背景下,我們推出了scLAMBDA,一個深度生成學習框架,專注於建模和預測單細胞對基因擾動的反應。scLAMBDA結合大型語言模型的基因嵌入,能有效區分基線細胞狀態與擾動影響。 評估結果顯示,scLAMBDA在預測基因擾動結果上超越現有方法,準確性更高,且對新目標基因和擾動具良好泛化能力,支持多種下游分析,展現其實用性和靈活性。 PubMed DOI

空間轉錄組學是理解組織細胞組成的重要工具,尤其在癌症研究中,腫瘤微環境至關重要。然而,數據的複雜性使解釋變得困難。本研究探討大型語言模型(LLMs)在分析小鼠黑色素瘤模型的空間轉錄組數據的應用。研究發現Claude 3.5 Sonnet在斑點量化和模式識別上表現最佳,並開發出系統化工作流程,幫助分析腫瘤免疫景觀。該模型揭示了免疫抑制機制,並顯示LLMs在空間轉錄組學中的潛力,能有效提升數據解釋的能力。 PubMed DOI

阿茲海默症是一種漸進性的神經系統疾病,影響全球數百萬人,導致認知能力下降和記憶喪失。傳統診斷方法難以早期檢測。本研究提出一種新方法,結合自然語言處理和大型語言模型,利用GenBERT來識別阿茲海默症的生物標記。透過整合臨床數據,GenBERT在早期預測方面表現優異,準確率達98.30%,並顯示出高敏感性和特異性,為阿茲海默症的早期診斷提供了可靠工具,可能改變未來的檢測與治療策略。 PubMed DOI

單細胞多組學技術,特別是單細胞RNA測序(scRNA-seq),讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞,並利用word2vec技術生成基因的向量表示,我們能夠進行多尺度分析,識別細胞狀態與發展軌跡。這種方法不僅計算效率高,還能在不依賴高效能計算集群的情況下進行分析,成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

大型語言模型(LLMs)能根據病人表現型有效排序相關基因,表現不輸甚至優於傳統生物資訊方法。LLMs 有潛力協助罕見遺傳疾病診斷,提升準確度並簡化流程,成為未來診斷新選擇。 PubMed DOI

sciL-aMA 是微軟推出的新深度學習框架,結合大型語言模型的基因嵌入和單細胞 RNA 定序資料,採用 paired-VAE 架構。這方法能同時為細胞和基因建立情境感知的表徵,提升批次校正、細胞分群和基因標記鑑定的效果,兼顧效率與可解釋性。原始碼在 GitHub:https://github.com/microsoft/sciLaMA PubMed DOI