原始文章

在單細胞轉錄組學中,細胞類型註解不一致會影響數據整合與機器學習。為了解決這個問題,我們開發了統一的層級註解框架(uHAF),包含器官特定的層級細胞類型樹(uHAF-T)和大型語言模型驅動的映射工具(uHAF-Agent)。uHAF-T 提供38個器官的標準化參考,促進一致的標籤統一。uHAF-Agent 利用 GPT-4 將多樣的細胞標籤映射到 uHAF-T,簡化協調過程。這個框架增強了數據整合,支持機器學習,並促進單細胞研究的合作。uHAF 可在 https://uhaf.unifiedcellatlas.org 和 https://github.com/SuperBianC/uhaf 獲得,補充數據也可在 Bioinformatics 在線查詢。 PubMed DOI


站上相關主題文章列表

單細胞多組學技術,特別是單細胞RNA測序(scRNA-seq),讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞,並利用word2vec技術生成基因的向量表示,我們能夠進行多尺度分析,識別細胞狀態與發展軌跡。這種方法不僅計算效率高,還能在不依賴高效能計算集群的情況下進行分析,成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

這項研究探討訓練數據集的組成如何影響單細胞轉錄組學模型在人體造血中的表現。研究結果顯示: 1. 模型對新細胞類型的泛化能力較差。 2. 在健康細胞訓練集中加入惡性細胞,並不一定能改善對新惡性細胞的建模。 3. 使用胚胎幹細胞分化圖譜訓練可提升在分佈外數據任務的表現。 這些發現強調了多樣化訓練數據對開發有效單細胞模型的重要性,並提出了未來模型優化的策略。 PubMed DOI

這項研究分析了超過5,100種蛋白質在U2OS骨肉瘤細胞中的互動,繪製出人類亞細胞結構的完整地圖。研究人員透過自我監督的數據整合,找出275個分子組合,並用尺寸排除色譜法驗證結果。這項研究揭示了111個異二聚體複合體的結構,並為975種蛋白質指派了新功能,特別是在RNA處理和干擾素信號傳導中。研究還解碼了兒童癌症基因組,識別出21個反覆突變的組合,並發現102種新的癌症蛋白質。這些成果可透過Cell Visualization Portal和Mapping Toolkit獲得,成為細胞生物學的重要資源。 PubMed DOI

STAgent 是一套自主 AI 系統,能快速分析空間轉錄體學資料,還會自動產生程式碼、解讀分布、查文獻,幾乎不用人工介入就能完成報告。應用在胰臟細胞研究時,能迅速找出關鍵機制,讓分析更快、門檻更低,為相關研究帶來新突破。 PubMed DOI

Omics 資料量暴增,超出現有分析能力,但大型語言模型(LLMs)能解決這問題。透過多模態基礎模型預訓練,可有效解析基因體、轉錄體等多元資料,應用於細胞分類、生物標記發現、基因調控等,推動 AI 驅動的生物研究,深入了解生命科學。 PubMed DOI

CellTypeAgent 是一款新工具,結合大型語言模型和資料庫驗證,能自動又精確地標註單細胞 RNA 定序資料的細胞類型。它比現有方法更準確、錯誤率更低,已在九個資料集、36 種組織、303 種細胞類型上測試,展現出快速又可靠的標註潛力。 PubMed

SCassist 是一款 R 套件,結合 GPT、Gemini、Llama3 等大型語言模型,協助分析單細胞 RNA 定序資料。它能自動化過濾、正規化、分群、細胞註解等流程,讓 scRNA-seq 分析更簡單好上手。詳細教學和下載可到 GitHub 查詢。 PubMed DOI

sciL-aMA 是微軟推出的新深度學習框架,結合大型語言模型的基因嵌入和單細胞 RNA 定序資料,採用 paired-VAE 架構。這方法能同時為細胞和基因建立情境感知的表徵,提升批次校正、細胞分群和基因標記鑑定的效果,兼顧效率與可解釋性。原始碼在 GitHub:https://github.com/microsoft/sciLaMA PubMed DOI

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 PubMed DOI

scClassify2 是新一代細胞註解工具,能辨識細胞狀態的連續性,不只分細胞類型。它用雙層架構,結合序位迴歸和生物知識,表現優異。支援單細胞 RNA 定序和空間轉錄體學,也有提供學術用的網頁伺服器。 PubMed DOI