Investigation of cell development and tissue structure network based on natural Language processing of scRNA-seq data.
基於 scRNA-seq 數據的自然語言處理對細胞發展和組織結構網絡的研究。 J Transl Med 2025-03-04

單細胞多組學技術，特別是單細胞RNA測序（scRNA-seq），讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞，並利用word2vec技術生成基因的向量表示，我們能夠進行多尺度分析，識別細胞狀態與發展軌跡。這種方法不僅計算效率高，還能在不依賴高效能計算集群的情況下進行分析，成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

Consequences of training data composition for deep learning models in single-cell biology.
單細胞生物學中訓練數據組成對深度學習模型的影響。 bioRxiv 2025-03-10

這項研究探討訓練數據集的組成如何影響單細胞轉錄組學模型在人體造血中的表現。研究結果顯示： 1. 模型對新細胞類型的泛化能力較差。 2. 在健康細胞訓練集中加入惡性細胞，並不一定能改善對新惡性細胞的建模。 3. 使用胚胎幹細胞分化圖譜訓練可提升在分佈外數據任務的表現。這些發現強調了多樣化訓練數據對開發有效單細胞模型的重要性，並提出了未來模型優化的策略。 PubMed DOI

uHAF: a unified hierarchical annotation framework for cell type standardization and harmonization.
uHAF：一個統一的層級註釋框架，用於細胞類型標準化和協調。 Bioinformatics 2025-04-02

在單細胞轉錄組學中，細胞類型註解不一致會影響數據整合與機器學習。為了解決這個問題，我們開發了統一的層級註解框架（uHAF），包含器官特定的層級細胞類型樹（uHAF-T）和大型語言模型驅動的映射工具（uHAF-Agent）。uHAF-T 提供38個器官的標準化參考，促進一致的標籤統一。uHAF-Agent 利用 GPT-4 將多樣的細胞標籤映射到 uHAF-T，簡化協調過程。這個框架增強了數據整合，支持機器學習，並促進單細胞研究的合作。uHAF 可在 https://uhaf.unifiedcellatlas.org 和 https://github.com/SuperBianC/uhaf 獲得，補充數據也可在 Bioinformatics 在線查詢。 PubMed DOI

circ2LO: Identification of CircRNA Based on the LucaOne Large Model.
circ2LO：基於 LucaOne 大型模型的 CircRNA 辨識 Genes (Basel) 2025-04-26

環狀RNA（circRNA）是特殊的非編碼RNA，和多種疾病有關。準確辨識circRNA對研究和藥物開發很重要。現有方法多只用序列或生物特徵，資訊容易流失。作者提出新方法circ2LO，利用大型模型LucaOne，針對RNA剪接位點和周圍序列做進階特徵嵌入，並結合卷積層和自注意力層來抓核心特徵，最後用全連接層分類。circ2LO在人體、阿拉伯芥和小鼠資料集上表現都比現有方法好，準確又穩定，很有發展潛力。 PubMed DOI

scDrugMap: Benchmarking Large Foundation Models for Drug Response Prediction.
scDrugMap：大型基礎模型於藥物反應預測的基準評估 ArXiv 2025-05-19

scDrugMap 是首個針對單細胞藥物反應預測的大型基準評測工具，支援 Python CLI 和網頁操作。它評比了 10 種模型，涵蓋 36 個資料集、超過 32 萬細胞。結果顯示 scFoundation 整體表現最佳，UCE 和 scGPT 在特定情境也很優秀。scDrugMap 平台操作簡單，對藥物開發和研究很有幫助。 PubMed

CellTypeAgent: Trustworthy cell type annotation with Large Language Models.
CellTypeAgent：利用大型語言模型進行可信賴的細胞類型註釋 ArXiv 2025-06-04

CellTypeAgent 是一款新工具，結合大型語言模型和資料庫驗證，能自動又精確地標註單細胞 RNA 定序資料的細胞類型。它比現有方法更準確、錯誤率更低，已在九個資料集、36 種組織、303 種細胞類型上測試，展現出快速又可靠的標註潛力。 PubMed

CytoLNCpred-a computational method for predicting cytoplasm associated long non-coding RNAs in 15 cell-lines.
CytoLNCpred—一種用於預測15種細胞株中細胞質相關長鏈非編碼RNA的計算方法 Front Bioinform 2025-06-10

這項研究開發了新型機器學習和深度學習模型，能預測15種人類細胞株中，哪些長鏈非編碼RNA在細胞質比細胞核更豐富。傳統機器學習模型表現比大型語言模型更好，AUC分數約0.71。研究團隊也提供了細胞株專屬的預測工具和網頁伺服器，方便研究人員使用。 PubMed DOI

SCassist: An AI Based Workflow Assistant for Single-Cell Analysis.
SCassist：用於單細胞分析的 AI 工作流程助理 bioRxiv 2025-06-10

SCassist 是一款 R 套件，結合 GPT、Gemini、Llama3 等大型語言模型，協助分析單細胞 RNA 定序資料。它能自動化過濾、正規化、分群、細胞註解等流程，讓 scRNA-seq 分析更簡單好上手。詳細教學和下載可到 GitHub 查詢。 PubMed DOI

scATD: a high-throughput and interpretable framework for single-cell cancer drug resistance prediction and biomarker identification.
scATD：用於單細胞癌症藥物抗性預測與生物標誌物鑑定的高通量且可解釋性分析框架 Brief Bioinform 2025-06-12

這篇研究提出 scATD 框架，運用大型語言模型，能快速預測單細胞 RNA 定序資料的藥物敏感性。scATD 不用重新訓練模型就能準確預測新病患，靠的是創新的風格轉換和知識蒸餾技術。測試結果顯示，scATD 在準確度、泛用性和效率都比現有方法更好，還能更清楚解釋基因和藥物的關聯，對精準腫瘤醫學很有幫助。 PubMed DOI

sciLaMA: A Single-Cell Representation Learning Framework to Leverage Prior Knowledge from Large Language Models.
sciLaMA：利用大型語言模型先驗知識的單細胞表現學習框架 bioRxiv 2025-06-12

sciL-aMA 是微軟推出的新深度學習框架，結合大型語言模型的基因嵌入和單細胞 RNA 定序資料，採用 paired-VAE 架構。這方法能同時為細胞和基因建立情境感知的表徵，提升批次校正、細胞分群和基因標記鑑定的效果，兼顧效率與可解釋性。原始碼在 GitHub：https://github.com/microsoft/sciLaMA PubMed DOI

原始文章

站上相關主題文章列表