Deciphering genomic codes using advanced NLP techniques: a scoping review.
利用先進的自然語言處理技術解讀基因組代碼：一項範疇回顧。 ArXiv 2024-12-09

這篇評論探討自然語言處理（NLP）技術，特別是大型語言模型（LLMs）和變壓器架構在分析人類基因組測序數據的應用。文章分析了2021年至2024年4月間的26項研究，顯示NLP技術能顯著改善基因組數據的處理與解釋，協助預測轉錄因子結合位點等任務。評論強調NLP和LLMs在基因組分析中的潛力，對個性化醫療有助益，但也指出需進一步研究以解決現有限制，提升模型的透明度與適用性。 PubMed DOI

Genomic language models: opportunities and challenges.
基因組語言模型：機會與挑戰。 Trends Genet 2025-01-03

大型語言模型（LLMs）正在改變生物醫學科學，特別是在理解生物序列方面。基因組語言模型（gLMs）專注於DNA序列，能幫助預測基因組中重要的功能區域、設計新DNA序列，並促進轉移學習。儘管如此，開發有效的gLMs仍面臨挑戰，如數據質量、模型架構及評估指標等。解決這些問題對於gLMs在複雜生物系統中的應用至關重要。 PubMed DOI

PhenoAlign: A Hybrid Data-Knowledge-Driven Approach for Precisely Aligning Phenotype Information in Medical Texts.
PhenoAlign：一種混合數據-知識驅動的方法，用於精確對齊醫學文本中的表現型信息。 IEEE J Biomed Health Inform 2025-03-03

這項研究針對醫學文本中的表型資訊進行精確對齊，旨在提升智能醫療應用，如檢索相似病患案例。作者提出了表型語義結構單元（PhenoSSU）及自動提取演算法，並探索多種對齊策略，發現數據驅動的方法效果最佳。基於BERT的模型對短語型PhenoSSU有效，而知識基礎方法則適合邏輯型PhenoSSU。最終開發的PhenoAlign工具在金標準測試集上表現優異，F1分數達0.820，顯示其在病患照護和醫學研究中的潛力。 PubMed DOI

TransHLA: a Hybrid Transformer model for HLA-presented epitope detection.
TransHLA：一種用於 HLA 呈現表位檢測的混合 Transformer 模型。 Gigascience 2025-03-04

TransHLA是一個創新的工具，能預測人類白血球抗原（HLA）上的表位呈現，克服了傳統工具只針對特定等位基因的限制。它結合了Transformer和殘基CNN架構，並利用ESM2大型語言模型進行序列和結構嵌入，達到高準確率：HLA I類84.72%，HLA II類79.94%，AUC分別為91.95%和88.14%。案例研究顯示，TransHLA在識別免疫原性表位及新表位方面優於現有模型，對疫苗設計和免疫療法有助益。工具及資源可在 https://github.com/SkywalkerLuke/TransHLA 獲得。 PubMed DOI

Pipeline to explore information on genome editing using large language models and genome editing meta-database.
利用大型語言模型和基因編輯元數據庫探索基因編輯資訊的管道。 Database (Oxford) 2025-03-08

基因編輯（GE）是生命科學中的重要工具，但因物種、基因序列及工具不同，編輯某些基因會遇到挑戰。為了提升基因編輯研究的設計，確認文獻中基因編輯的實踐至關重要。基因編輯元數據庫（GEM）提供了有用的資訊，但對特定基因的參與細節仍不足。本研究開發了一種系統性方法，利用大型語言模型從GEM及相關文獻中提取關鍵資訊，讓基因編輯數據的調查更全面。我們還提出將這些資訊轉換為指標，以優先考慮未來的研究基因。最終的基因編輯資訊和評分系統旨在簡化目標基因的選擇，改善研究設計。欲了解更多，請訪問以下網址：https://github.com/szktkyk/extract_geinfo 和 https://github.com/szktkyk/visualize_geinfo。 PubMed DOI

Contrastive Learning Enables Epitope Overlap Predictions for Targeted Antibody Discovery.
對比學習促進了針對抗體發現的表位重疊預測。 bioRxiv 2025-03-10

治療性抗體的開發面臨預測表位的挑戰，這對抗體設計至關重要。本研究提出三種創新方法來預測表位關係： 1. **序列同一性分析**：分析1800萬對抗體，發現CDRH3序列同一性超過70%可可靠指示重疊表位。 2. **對比學習框架**：開發監督式對比微調方法，對抗體語言模型進行調整，達到82.7%準確率，優於傳統模型。 3. **AbLang-PDB模型**：創建通用模型，預測重疊表位抗體，精確度提高五倍。這些模型為抗體發現提供了有價值的工具，並顯示對比學習的有效性。 PubMed DOI

A Feature Engineering Method for Whole-Genome DNA Sequence with Nucleotide Resolution.
一種具有核苷酸解析度的全基因組 DNA 序列特徵工程方法。 Int J Mol Sci 2025-03-13

這項研究提出了FE-WDNA，一種新型的特徵工程方法，專注於全基因組DNA序列，以提升植物表型性狀的預測準確性。傳統方法多依賴單核苷酸多態性（SNPs），常導致遺傳資訊不完整，無法捕捉核苷酸間的關聯。FE-WDNA利用大型語言模型HyenaDNA，對1000個大豆樣本的全基因組數據進行微調，能提取全面的基因組特徵向量，考量核苷酸的上下文及長距離依賴性。研究顯示，這方法在農業性狀預測上相較於傳統SNP方法有顯著改進，並可應用於其他植物及計算育種。 PubMed DOI

Benchmarking DNA large language models on quadruplexes.
對四重螺旋的 DNA 大型語言模型進行基準測試。 Comput Struct Biotechnol J 2025-03-31

這項研究評估了不同的大型語言模型（LLM）在生成G-四重螺旋（GQ）全基因組註解的表現，這些結構在基因調控中扮演重要角色。測試的模型包括變壓器、長卷積和狀態空間模型。結果顯示，所有模型表現相似，DNABERT-2和HyenaDNA的F1分數及馬修斯相關係數（MCC）最佳。特別是HyenaDNA在識別遠端增強子和內含子區域的GQ上更有效，且在檢測大型GQ陣列方面表現優異。研究強調不同LLM可互補，建議根據基因組任務選擇模型。相關代碼和數據已在GitHub公開。 PubMed DOI

Transformer-based models for uncovering genetic mutations in cancerous and non-cancerous genomes.
用於發現癌性與非癌性基因組中遺傳突變的 Transformer-based 模型 Gene 2025-05-29

這項研究利用先進的transformer模型（DNABERT-2和Nucleotide Transformer），有效區分癌症與非癌症基因突變。團隊結合真實與合成資料訓練，解決資料不平衡問題。結果顯示，這方法在各項指標上都比現有模型更優秀，有助提升基因分析準確度，未來有望推動個人化癌症治療發展。 PubMed DOI

Aligning large language models and geometric deep models for protein representation.
大型語言模型與幾何深度模型在蛋白質表徵上的對齊 Patterns (N Y) 2025-06-09

這篇研究發現，結合圖形和3D結構資料的蛋白質幾何深度模型（GDMs）能和大型語言模型（LLMs）更好對齊，且LLMs規模越大效果越好。罕見蛋白質較難對齊，但提升GDM嵌入維度、用兩層投影頭、或針對蛋白質微調LLM都能改善。對齊提升後，下游任務表現更好，也能減少模型產生錯誤資訊。 PubMed DOI

原始文章

站上相關主題文章列表