原始文章

Seqwash是一種創新的演算法,利用大型語言模型來協調免疫細胞的測序資料。它透過創建統一的序列表示,有效過濾不相關信息,並突顯重要模式。評估結果顯示,Seqwash能標準化免疫細胞資料,提升特徵質量,並在各種下游任務中(無論是監督式或非監督式)改善與測序數據相關的表現。 PubMed DOI


站上相關主題文章列表

透過序列數據訓練的語言模型可學習蛋白質設計原則,但蛋白功能受結構影響。結合語言模型與結構資訊,可引導蛋白演化,改良抗SARS-CoV-2抗體,增強對病毒變異的中和能力。整合結構數據有助於找出有效蛋白演化路徑,無需特定訓練。 PubMed DOI

大型語言模型(LLMs)正在改變生物醫學科學,特別是在理解生物序列方面。基因組語言模型(gLMs)專注於DNA序列,能幫助預測基因組中重要的功能區域、設計新DNA序列,並促進轉移學習。儘管如此,開發有效的gLMs仍面臨挑戰,如數據質量、模型架構及評估指標等。解決這些問題對於gLMs在複雜生物系統中的應用至關重要。 PubMed DOI

透過結構化數據來識別免疫抑制患者相當困難,但像GPT-4o這樣的大型語言模型在從非結構化的臨床文本中提取結構化概念方面表現優異。我們的研究顯示,GPT-4o在分析住院紀錄時,能有效識別免疫抑制狀況和藥物使用,超越傳統方法。此外,這種技術也能成功應用於外部數據集。雖然GPT-4o mini和Llama 3.1等成本較低的模型也有不錯的表現,但仍無法與GPT-4o相比。 PubMed DOI

傳統抗體發現方法效率低、成本高且成功率不佳。為了解決這些問題,最近引入了人工智慧(AI)技術來增強和創造新的抗體序列。本研究介紹了MAGE(單克隆抗體生成器),這是一種專門設計的蛋白質語言模型,能生成針對不同目標的人類抗體序列。MAGE已成功產生新穎且多樣的抗體,並在實驗中證實其對SARS-CoV-2、禽流感H5N1和RSV-A的結合特異性,成為針對多目標抗體設計的先驅工具。 PubMed DOI

單細胞多組學技術,特別是單細胞RNA測序(scRNA-seq),讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞,並利用word2vec技術生成基因的向量表示,我們能夠進行多尺度分析,識別細胞狀態與發展軌跡。這種方法不僅計算效率高,還能在不依賴高效能計算集群的情況下進行分析,成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

大型語言模型(LLMs),像是ChatGPT,已經徹底改變了學術界的科學寫作與研究,提供了全方位的支援。生成式人工智慧(GAI)工具在假設形成、方法設計、數據分析到手稿準備等各階段都有所改善。這篇評論專注於LLMs在血液學研究中的應用,特別提到提示工程和檢索增強生成(RAG)框架等技術。這些技術能幫助研究人員創造更準確的內容,並降低錯誤資訊的風險。儘管GAI工具提升了研究質量,但也強調了科學誠信、倫理考量及隱私保護的重要性。 PubMed DOI

這項研究評估了不同的大型語言模型(LLM)在生成G-四重螺旋(GQ)全基因組註解的表現,這些結構在基因調控中扮演重要角色。測試的模型包括變壓器、長卷積和狀態空間模型。結果顯示,所有模型表現相似,DNABERT-2和HyenaDNA的F1分數及馬修斯相關係數(MCC)最佳。特別是HyenaDNA在識別遠端增強子和內含子區域的GQ上更有效,且在檢測大型GQ陣列方面表現優異。研究強調不同LLM可互補,建議根據基因組任務選擇模型。相關代碼和數據已在GitHub公開。 PubMed DOI

這篇研究用MAMMAL AI模型,僅靠序列資料就能準確預測抗體和流感HA抗原的結合及阻斷效果。模型對已知抗體和抗原表現優異(AUROC ≥ 0.91),對新抗原也不錯(AUROC 0.9),但遇到全新抗體時準確度會下降。這顯示AI有助於抗體篩選,但還需要更多元的抗體資料來提升預測新抗體的能力。 PubMed DOI

目前人類抗體序列的多樣性了解有限,因為現有檢測方法又貴又沒效率。作者開發了IgHuAb大型語言模型,能產生大量成對人類抗體序列,並建立了SynAbLib合成抗體庫,不只反映自然多樣性,還有更高變化。實驗證明,SynAbLib的抗體表現很好。這些工具提供一種可擴展的方法,能快速產生和搜尋理想人類抗體。 PubMed DOI

sciL-aMA 是微軟推出的新深度學習框架,結合大型語言模型的基因嵌入和單細胞 RNA 定序資料,採用 paired-VAE 架構。這方法能同時為細胞和基因建立情境感知的表徵,提升批次校正、細胞分群和基因標記鑑定的效果,兼顧效率與可解釋性。原始碼在 GitHub:https://github.com/microsoft/sciLaMA PubMed DOI