Cell-to-cell distance that combines gene expression and gene embeddings.
結合基因表達和基因嵌入的細胞間距離。 Comput Struct Biotechnol J 2024-11-25

這篇論文探討如何將大型語言模型（LLMs）與單細胞基因表達數據結合，重點在基因嵌入矩陣和基因表達矩陣的整合。主要挑戰是有效合併這兩種數據，以提升細胞間距離的定義。作者提出了一個計算效率高的解決方案，顯著改善了六個真實數據集上相似細胞類型的聚類，顯示其在測量細胞間距離上的有效性。 PubMed DOI

Simple and effective embedding model for single-cell biology built from ChatGPT.
基於 ChatGPT 的單細胞生物學簡單而有效的嵌入模型。 Nat Biomed Eng 2024-12-06

這項研究介紹了GenePT，一種新方法，利用ChatGPT的嵌入來表示基因，提供比傳統依賴大量基因表達數據的模型訓練更簡單的替代方案。研究人員使用GPT-3.5為單個基因生成嵌入，並透過加權平均創建單細胞嵌入，有效編碼細胞信息。此外，他們根據基因表達水平生成細胞的句子嵌入。GenePT在基因屬性和細胞類型分類等任務中表現優異，顯示出大型語言模型嵌入在捕捉單細胞生物知識上的潛力。 PubMed DOI

Tackling the Complexity of Spatial Transcriptomics Data Interpretation with Large Language Models.
利用大型語言模型應對空間轉錄組數據解釋的複雜性。 bioRxiv 2024-12-16

空間轉錄組學是理解組織細胞組成的重要工具，尤其在癌症研究中，腫瘤微環境至關重要。然而，數據的複雜性使解釋變得困難。本研究探討大型語言模型（LLMs）在分析小鼠黑色素瘤模型的空間轉錄組數據的應用。研究發現Claude 3.5 Sonnet在斑點量化和模式識別上表現最佳，並開發出系統化工作流程，幫助分析腫瘤免疫景觀。該模型揭示了免疫抑制機制，並顯示LLMs在空間轉錄組學中的潛力，能有效提升數據解釋的能力。 PubMed DOI

L2G: Repurposing Language Models for Genomics Tasks.
L2G: 將語言模型重新應用於基因組任務。 bioRxiv 2024-12-23

預訓練語言模型對自然語言處理（NLP）影響深遠，現在也啟發了基因組學的相關研究。開發高品質的基因組基礎模型（FMs）成本高且需大量資源，因此本研究提出L2G，透過現有的大型語言模型（LLMs）來應用於基因組任務。L2G運用「跨模態轉移」的概念，並結合神經架構搜索（NAS）及三階段訓練過程。結果顯示，L2G在多項基因組基準測試中表現優於微調的基因組FMs，特別在增強子活性預測方面也有卓越表現，顯示語言模型在基因組學的潛力。 PubMed DOI

Investigation of cell development and tissue structure network based on natural Language processing of scRNA-seq data.
基於 scRNA-seq 數據的自然語言處理對細胞發展和組織結構網絡的研究。 J Transl Med 2025-03-04

單細胞多組學技術，特別是單細胞RNA測序（scRNA-seq），讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞，並利用word2vec技術生成基因的向量表示，我們能夠進行多尺度分析，識別細胞狀態與發展軌跡。這種方法不僅計算效率高，還能在不依賴高效能計算集群的情況下進行分析，成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

Towards multimodal foundation models in molecular cell biology.
邁向分子細胞生物學中的多模態基礎模型 Nature 2025-04-16

Omics 資料量暴增，超出現有分析能力，但大型語言模型（LLMs）能解決這問題。透過多模態基礎模型預訓練，可有效解析基因體、轉錄體等多元資料，應用於細胞分類、生物標記發現、基因調控等，推動 AI 驅動的生物研究，深入了解生命科學。 PubMed DOI

SGTB: A graph representation learning model combining transformer and BERT for optimizing gene expression analysis in spatial transcriptomics data.
SGTB：結合 Transformer 與 BERT 的圖表示學習模型，用於優化空間轉錄組學資料中的基因表現分析 Comput Biol Chem 2025-04-30

這篇論文提出一種結合GCN、Transformer和BERT的新型空間多尺度圖卷積網路（SGTB），用來分析空間轉錄體學資料。這方法能同時抓住細胞的局部和全域空間關聯，並用BERT提升語意表現，讓細胞分類和基因調控網路建構等任務更精準有效。 PubMed DOI

CellTypeAgent: Trustworthy cell type annotation with Large Language Models.
CellTypeAgent：利用大型語言模型進行可信賴的細胞類型註釋 ArXiv 2025-06-04

CellTypeAgent 是一款新工具，結合大型語言模型和資料庫驗證，能自動又精確地標註單細胞 RNA 定序資料的細胞類型。它比現有方法更準確、錯誤率更低，已在九個資料集、36 種組織、303 種細胞類型上測試，展現出快速又可靠的標註潛力。 PubMed

Bridging Large Language Models and Single-Cell Transcriptomics in Dissecting Selective Motor Neuron Vulnerability.
連結大型語言模型與單細胞轉錄體學於解析選擇性運動神經元易感性的研究 ArXiv 2025-06-04

我們提出一種新方法，結合NCBI Gene的基因描述和大型語言模型，將單細胞RNA定序資料轉換成有意義的向量。做法是先找出每個細胞表現量最高的基因，擷取基因註解，再用語言模型轉成向量，並依表現量加權。這樣不只提升解釋性，也讓細胞分群和分析更精準。 PubMed

Annotation of biological samples data to standard ontologies with support from large language models.
結合大型語言模型輔助，將生物樣本數據註釋至標準本體的研究 Comput Struct Biotechnol J 2025-06-13

這篇研究用微調過的GPT大型語言模型，來自動把生物樣本標籤對應到本體論術語，減少人工註解負擔。實驗結果顯示，GPT模型在細胞株和細胞類型的召回率高達88–97%，但精確度只有47–64%。雖然能提升註解效率，但精確度還有進步空間，專家審查仍不可少。 PubMed DOI

原始文章

站上相關主題文章列表