原始文章

在單細胞轉錄組學中,細胞類型註解不一致會影響數據整合與機器學習。為了解決這個問題,我們開發了統一的層級註解框架(uHAF),包含器官特定的層級細胞類型樹(uHAF-T)和大型語言模型驅動的映射工具(uHAF-Agent)。uHAF-T 提供38個器官的標準化參考,促進一致的標籤統一。uHAF-Agent 利用 GPT-4 將多樣的細胞標籤映射到 uHAF-T,簡化協調過程。這個框架增強了數據整合,支持機器學習,並促進單細胞研究的合作。uHAF 可在 https://uhaf.unifiedcellatlas.org 和 https://github.com/SuperBianC/uhaf 獲得,補充數據也可在 Bioinformatics 在線查詢。 PubMed DOI


站上相關主題文章列表

單細胞RNA分析中標註細胞類型耗時且需要專業知識,但使用GPT-4大型語言模型能自動且精確標註。它與手動標註一致,可減少標註的工作量。為了推廣GPT-4的應用,開發了開源軟體套件GPTCelltype。 PubMed DOI

在單細胞RNA序列分析中,細胞類型的標註是重要的,但也很耗時。GPT-4,一個強大的語言模型,可以利用標記基因信息自動準確地標註細胞類型。已經證明它在各種組織和細胞類型上表現良好,有潛力減少標註細胞類型所需的努力和專業知識。 PubMed DOI

這項研究建立了一個詳細的人類腎臟內皮細胞參考圖譜,揭示了其異質性和物種間的保守性。研究人員整合了七個單細胞RNA測序數據,識別出五種主要細胞類型,內皮細胞數量達29,992個。進一步分析顯示七個亞群,各具獨特的分子特徵和生理功能。研究強調人類與小鼠腎臟內皮細胞的相似性,並發現內皮細胞在血壓遺傳性中扮演重要角色。這個圖譜有助於理解腎臟內皮細胞在疾病和衰老中的變化,並提供了公眾可訪問的數據工具,促進進一步研究。 PubMed DOI

單細胞测序技術革新生醫領域,但數據變異挑戰多。新scLLMs可辨識共同模式,解決問題。現有scLLMs在零-shot表現待加強,需更好適應。PEFT策略提出,改進scLLMs細胞辨識,性能提升且參數減少90%。此法有效提升單細胞模型應用效率。 PubMed DOI

在這項研究中,我們展示了GPT-4可以在單細胞RNA序列分析中使用標記基因數據準確標記細胞類型。GPT-4的標記與各種組織和細胞類型的手動標記相符,簡化了細胞類型標記的過程。我們還開發了一個名為GPTCelltype的R軟體套件,用於使用GPT-4進行自動細胞類型標記。 PubMed DOI

Harmonizome 3.0 是 Harmonizome 資料庫的升級版,整理了各種 omics 數據,突顯基因與其屬性之間的關聯。新版本新增 26 個數據集,總共近 1200 萬個基因-屬性關聯,並具備數據集交叉能力,能識別共享的基因模組。大型語言模型提供推測性見解,並改善了數據格式與可視化選項,使用者可下載知識圖譜並使用 UMAP 圖進行視覺化。透過互動介面,使用者能探索基因-屬性關聯,網址為 https://maayanlab.cloud/Harmonizome/。 PubMed DOI

CZ CELLxGENE Discover 是一個線上平台,專門用來探索和分析單細胞轉錄組數據。它擁有超過9300萬個獨特細胞,是目前最大的整理數據集,提供標準化數據和一致的元數據。這個平台旨在提升研究人員的可及性,讓他們能夠進行個別數據集的探索和跨資料庫的分析。透過機器學習和大型語言模型的進展,CZ CELLxGENE Discover 提供了有關健康與疾病的深入見解,特別是在單細胞層面上,並解決了龐大數據集的挑戰。 PubMed DOI

空間轉錄組學是理解組織細胞組成的重要工具,尤其在癌症研究中,腫瘤微環境至關重要。然而,數據的複雜性使解釋變得困難。本研究探討大型語言模型(LLMs)在分析小鼠黑色素瘤模型的空間轉錄組數據的應用。研究發現Claude 3.5 Sonnet在斑點量化和模式識別上表現最佳,並開發出系統化工作流程,幫助分析腫瘤免疫景觀。該模型揭示了免疫抑制機制,並顯示LLMs在空間轉錄組學中的潛力,能有效提升數據解釋的能力。 PubMed DOI

單細胞多組學技術,特別是單細胞RNA測序(scRNA-seq),讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞,並利用word2vec技術生成基因的向量表示,我們能夠進行多尺度分析,識別細胞狀態與發展軌跡。這種方法不僅計算效率高,還能在不依賴高效能計算集群的情況下進行分析,成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

這項研究探討訓練數據集的組成如何影響單細胞轉錄組學模型在人體造血中的表現。研究結果顯示: 1. 模型對新細胞類型的泛化能力較差。 2. 在健康細胞訓練集中加入惡性細胞,並不一定能改善對新惡性細胞的建模。 3. 使用胚胎幹細胞分化圖譜訓練可提升在分佈外數據任務的表現。 這些發現強調了多樣化訓練數據對開發有效單細胞模型的重要性,並提出了未來模型優化的策略。 PubMed DOI