Large Language Models and Genomics for Summarizing the Role of microRNA in Regulating mRNA Expression.
大型語言模型與基因組學在總結 microRNA 調控 mRNA 表達中的角色。 Biomedicines 2024-07-27

這項研究探討微小RNA（miRNA）與信使RNA（mRNA）之間的互動，並強調從PubMed文章中提取這些互動的挑戰。研究人員建立了一個miRNA-mRNA互動語料庫（MMIC），並評估了多種機器學習和大型語言模型的表現。結果顯示，PubMedBERT在精確度和召回率上表現最佳，達到0.783。而Llama-2在零樣本和三樣本實驗中也有不錯的表現，特別是在召回率上優於其他模型，但在精確度上仍需改進。這顯示Llama-2在提取miRNA-mRNA互動方面具有潛力。 PubMed DOI

Deciphering genomic codes using advanced NLP techniques: a scoping review.
利用先進的自然語言處理技術解讀基因組代碼：一項範疇回顧。 ArXiv 2024-12-09

這篇評論探討自然語言處理（NLP）技術，特別是大型語言模型（LLMs）和變壓器架構在分析人類基因組測序數據的應用。文章分析了2021年至2024年4月間的26項研究，顯示NLP技術能顯著改善基因組數據的處理與解釋，協助預測轉錄因子結合位點等任務。評論強調NLP和LLMs在基因組分析中的潛力，對個性化醫療有助益，但也指出需進一步研究以解決現有限制，提升模型的透明度與適用性。 PubMed DOI

Genomic language models: opportunities and challenges.
基因組語言模型：機會與挑戰。 Trends Genet 2025-01-03

大型語言模型（LLMs）正在改變生物醫學科學，特別是在理解生物序列方面。基因組語言模型（gLMs）專注於DNA序列，能幫助預測基因組中重要的功能區域、設計新DNA序列，並促進轉移學習。儘管如此，開發有效的gLMs仍面臨挑戰，如數據質量、模型架構及評估指標等。解決這些問題對於gLMs在複雜生物系統中的應用至關重要。 PubMed DOI

Boosting GPT models for genomics analysis: generating trusted genetic variant annotations and interpretations through RAG and Fine-tuning.
提升 GPT 模型於基因組分析的能力：透過 RAG 和微調生成可信的遺傳變異註解和詮釋。 Bioinform Adv 2025-02-21

你的專案專注於提升大型語言模型（LLMs）在基因組學的表現，特別是透過整合變異註解數據。你成功將1.9億條準確的變異註解整合進GPT-4o，讓使用者能查詢特定基因變異並獲得詳細解釋。雖然微調有助於提升表現，但檢索增強生成（RAG）在數據量和成本效益上更具優勢。這項研究不僅提高了變異解釋的可及性，也為未來基因組學的AI系統發展樹立了榜樣，展現了LLMs的潛力。公開數據集可依需求分享。 PubMed DOI

Deciphering genomic codes using advanced natural language processing techniques: a scoping review.
利用先進的自然語言處理技術解讀基因組代碼：一項範疇回顧。 J Am Med Inform Assoc 2025-02-25

這篇綜述探討自然語言處理（NLP）技術，特別是大型語言模型（LLMs）和變壓器架構在分析人類基因組測序數據中的應用。文章分析了2021年至2024年4月間的26項研究，顯示NLP技術能顯著提升基因組信息的理解，尤其在預測調控元件方面。雖然這些技術有助於改善基因組數據分析效率及推進個人化醫療，但仍面臨數據可及性和模型透明度等挑戰，需進一步研究以完善應用。總體而言，NLP在基因組測序分析中的重要性日益增加，未來仍有改進空間。 PubMed DOI

Benchmarking DNA large language models on quadruplexes.
對四重螺旋的 DNA 大型語言模型進行基準測試。 Comput Struct Biotechnol J 2025-03-31

這項研究評估了不同的大型語言模型（LLM）在生成G-四重螺旋（GQ）全基因組註解的表現，這些結構在基因調控中扮演重要角色。測試的模型包括變壓器、長卷積和狀態空間模型。結果顯示，所有模型表現相似，DNABERT-2和HyenaDNA的F1分數及馬修斯相關係數（MCC）最佳。特別是HyenaDNA在識別遠端增強子和內含子區域的GQ上更有效，且在檢測大型GQ陣列方面表現優異。研究強調不同LLM可互補，建議根據基因組任務選擇模型。相關代碼和數據已在GitHub公開。 PubMed DOI

Pipeline to explore information on genome editing using large language models and genome editing meta-database.
利用大型語言模型與基因編輯元資料庫探索基因編輯資訊的流程 Database (Oxford) 2025-04-22

這項研究用大型語言模型，從GEM資料庫和文獻中自動萃取基因編輯細節，突破了原本資料庫的限制。這讓研究人員能更快找到重要基因、規劃實驗，提升基因編輯研究效率。相關工具和資料已在GitHub公開，方便大家使用。 PubMed DOI

Pipeline to explore information on genome editing using large language models and genome editing meta-database.
利用大型語言模型與基因編輯元資料庫探索基因編輯資訊之流程 Database (Oxford) 2025-05-22

這項研究用大型語言模型，從GEM資料庫和文獻中自動萃取、量化基因編輯資訊，突破現有資料庫限制，更清楚呈現基因在編輯中的角色，提升基因排序效率，幫助設計更好的基因編輯實驗。相關工具和資料已在GitHub公開。 PubMed DOI

Large Language Models in Genomics-A Perspective on Personalized Medicine.
基因體學中的大型語言模型——個人化醫療的觀點 Bioengineering (Basel) 2025-05-28

大型語言模型正改變基因體醫療，能快速分析文獻和基因資料，提升診斷與治療建議的精準度。雖然還有挑戰待克服，但隨著技術進步和跨領域合作，未來 AI 將成為臨床基因體分析的主流工具，推動個人化醫療發展。 PubMed DOI

Predicting RNA Structure Utilizing Attention from Pretrained Language Models.
利用預訓練語言模型的注意力機制預測RNA結構 J Chem Inf Model 2025-07-02

RNA除了攜帶遺傳資訊，還有許多結構相關的功能。雖然AI和大型語言模型（LLMs）在蛋白質結構預測上很有成效，但目前幾個主流的核酸語言模型（如RNABERT、ERNIE-RNA等）在RNA三維結構預測上表現有限，主要是因為模型設計上還有不少瓶頸。 PubMed DOI

原始文章

站上相關主題文章列表