原始文章

**重點整理:** GO2Sum 是一個工具,利用語言模型把冗長的 Gene Ontology (GO) 詞彙清單,轉換成簡短、易讀的蛋白質功能、結構和路徑摘要,讓生物學家更容易解讀蛋白質功能的預測結果。這個工具有提供一個操作簡單的網頁伺服器可以使用。 PubMed DOI


站上相關主題文章列表

這段文字探討了在對生物文本,特別是表型描述進行註釋時的挑戰,尤其是使用本體詞彙的情況。傳統文本挖掘工具在理解上下文方面表現不佳,而像OpenAI的GPT這類大型語言模型則更適合需要語義理解的任務。作者提出利用GPT對*Arabidopsis thaliana*和森林樹木的表型觀察進行本體詞彙註釋,目標是達到與人工註釋相當的效果。這些流程包括將表型解析為簡潔概念,並使用嵌入向量相似度和檢索增強生成(RAG)方法來識別合適的本體詞彙,最終實現高準確度的自動註釋。 PubMed DOI

功能性蛋白質組學在癌症研究中非常重要,能幫助識別新的生物標記和治療目標。我們建立了一個全面的資源,包含近8,000名癌症患者和約900個癌症細胞系的數據,並挑選了近500種高品質抗體,涵蓋主要癌症通路。為了提升可用性,我們推出了DrBioRight 2.0(https://drbioright.org),這是一個直觀的生物資訊平台,結合大型語言模型,讓研究人員能深入分析和視覺化蛋白質組學數據,加速轉化為生物醫學見解。 PubMed DOI

Ontolomics-P 是一款操作簡單的網頁工具,專門分析蛋白質體學資料。它用 LDA 主題建模、GO 語意相似度和 GPT-4o 再註解,能把複雜的生物功能整理成清楚易懂的主題,還整合 10 種癌症的蛋白質資料,讓分析更全面、結果更好懂,幫助推動蛋白質體學研究。 PubMed DOI

傳統基因集分析彈性有限,llm2geneset 利用大型語言模型,能根據基因和自然語言描述,動態產生專屬基因集,品質媲美甚至超越人工整理。這工具在解析高通量資料和找生物過程上,比傳統方法更有效。llm2geneset 已開源,網路上可免費取得。 PubMed DOI

生命科學文獻量暴增,人工整理越來越困難。本研究證明,只要設計好提示語和檢查流程,大型語言模型就能自動產出高品質、正確引用的非編碼RNA文獻摘要。人工審查也認可這些摘要的品質。這次共產生超過4,600篇摘要,已上架RNAcentral。未來只要做好品質控管,知識庫就能自動化產生文獻摘要。 PubMed DOI

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 PubMed DOI

用實驗鑑定蛋白質功能很慢又困難,導致很多蛋白質雖然知道序列和結構,功能還是不清楚。自動化功能預測(AFP)用電腦方法,結合序列、結構等資料來預測功能。本章介紹 TransFun,利用蛋白質語言模型和 AlphaFold 結構,提升預測準確度。程式碼在 https://github.com/jianlin-cheng/TransFun。 PubMed DOI

InterLabelGO+ 是一款在 CAFA5 表現很好的深度學習工具,用來預測蛋白質功能(GO terms)。它用 ESM2 模型抓序列特徵,並考慮 GO terms 間的關聯。這套工具結合深度學習和同源性分析,提升預測準確度。可透過網頁或安裝套件使用,也支援用戶自行用新資料訓練模型。 PubMed DOI

**重點摘要:** 這份調查回顧了目前用來預測蛋白質功能的模型,特別著重於運用自然語言處理(NLP)和大型語言模型(LLMs)來分析蛋白質序列和科學文獻的相關方法。內容強調了近期在自動化蛋白質功能註解(從序列資料和已發表研究中)方面的進展,以及目前仍面臨的挑戰。 PubMed DOI

Protein2Text 是一款能讀懂蛋白質序列並用文字回答相關問題的多模態大型語言模型。它改良 LLaVA 架構並加入重取樣機制,讓蛋白質序列更適合語言處理。經過 PubMed 資料集訓練,在多項測試中表現優於現有模型。研究也提醒現有評估方式有缺陷,呼籲改進。模型資源已全數開放。 PubMed DOI