原始文章

這項研究針對生物醫學領域的基因集、網絡和途徑分析,提出了一種新方法todenE(基於拓撲和密度的集成聚類)。此方法解決了途徑和基因列表中的冗餘問題,並透過元數據豐富PAGs以更好地反映生物功能。研究人員建立了PAG-PAG網絡,並利用大型語言模型來捕捉功能信息。引入的差異指數(DI)用於評估基因鄰居的連通性,並比較不同聚類算法的效果,最終形成Super-PAGs,顯示出更佳的語義相關性和基因包容性。 PubMed DOI


站上相關主題文章列表

本研究使用OpenAI的GPT-4大型語言模型,評估其在功能基因組學中的應用價值。結果顯示,GPT-4能夠生成具有生物醫學知識的基因功能假設,並提供比傳統方法更豐富的資訊。這顯示大型語言模型在功能基因組學研究中具有潛力成為有用的工具。 PubMed DOI

研究比較了21個大型語言模型(LLMs)在自動文本挖掘生物途徑的效能,專注於基因調控和KEGG途徑辨識。結果顯示,各模型表現不同,像是ChatGPT-4和Claude-Pro這類基於API的模型表現比開源模型好。LLMs在生物醫學研究中有潛力,可用於基因網絡分析和途徑對應,但因性能不同,選擇適合的模型至關重要。 PubMed DOI

MedicoVerse 是一個針對製藥產業法規文件進行摘要的解決方案,運用先進的機器學習技術。它採用多階段流程,包括詞嵌入、聚類和摘要生成。首先,利用 SapBERT 模型創建嵌入,接著用層次聚合聚類方法組織這些嵌入,最後使用 bart-large-cnn-samsum 模型對每個聚類進行摘要,並合併成綜合概述。與 T5、Google Pegasus 等模型比較後,MedicoVerse 在 ROUGE 分數、BERTScore 等評估標準上表現更佳,提供更具資訊性的摘要。 PubMed DOI

這項研究評估了21個大型語言模型(LLMs)在檢索生物知識的有效性,特別針對基因調控和KEGG途徑。隨著生物文獻的快速增長,傳統手動整理已不再足夠,LLMs成為一個有前景的替代方案。 結果顯示,模型性能差異明顯,GPT-4和Claude-Pro在基因調控關係的F1分數分別為0.4448和0.4386,KEGG途徑的Jaccard指數也表現強勁。相比之下,開源模型表現較差。研究強調選擇合適模型的重要性,並提供了LLMs在生物研究中的應用見解,相關代碼已在GitHub上公開。 PubMed DOI

這項研究評估了五種大型語言模型(LLMs)在識別基因集共同功能的有效性,並探討現有基因功能數據庫的限制。結果顯示,GPT-4在73%的案例中提出的功能與整理的基因集名稱相符,且其自信度與準確性相關。相比之下,隨機基因集的零自信率高達87%。其他模型如GPT-3.5和Gemini Pro則表現不一,經常在隨機基因集上出現錯誤自信。GPT-4在分析組學數據的基因簇時,識別出共同功能的案例達45%,顯示其在特異性和基因覆蓋率上優於傳統方法,顯示LLMs在組學研究中的潛力。 PubMed DOI

空間轉錄組學是理解組織細胞組成的重要工具,尤其在癌症研究中,腫瘤微環境至關重要。然而,數據的複雜性使解釋變得困難。本研究探討大型語言模型(LLMs)在分析小鼠黑色素瘤模型的空間轉錄組數據的應用。研究發現Claude 3.5 Sonnet在斑點量化和模式識別上表現最佳,並開發出系統化工作流程,幫助分析腫瘤免疫景觀。該模型揭示了免疫抑制機制,並顯示LLMs在空間轉錄組學中的潛力,能有效提升數據解釋的能力。 PubMed DOI

隨著生物醫學文獻的快速增長,使用大型語言模型(LLMs)來理解精準醫療變得越來越重要。然而,現有方法在提取複雜生物關係時面臨可靠性和可擴展性等挑戰。為了解決這些問題,我們提出了LORE,一種創新的無監督兩階段閱讀方法,將文獻視為可驗證的知識圖譜,並以語義嵌入表示。應用於PubMed摘要時,LORE能有效捕捉基因致病性信息,並在識別疾病相關基因方面達到90%的精確度,為研究人員提供了新的潛在治療靶點識別途徑。 PubMed DOI

單細胞多組學技術,特別是單細胞RNA測序(scRNA-seq),讓我們更深入了解細胞的多樣性與發展。透過將基因視為單詞,並利用word2vec技術生成基因的向量表示,我們能夠進行多尺度分析,識別細胞狀態與發展軌跡。這種方法不僅計算效率高,還能在不依賴高效能計算集群的情況下進行分析,成為探索細胞發展、基因影響及組織關係的重要工具。 PubMed DOI

單細胞和空間組學的應用在模型和病人樣本中,已經幫助識別許多新基因集,特別是在免疫療法方面。不過,這些基因集的生物學意義常常被片面解釋,因為依賴的註釋數據庫缺乏深度和準確性。為了解決這個問題,研究人員開發了免疫細胞知識圖譜(ICKGs),整合超過24,000篇文獻,並利用大型語言模型進行知識綜合。這些圖譜的質量經過獨立數據驗證,並能全面準確地註釋免疫學基因集。研究團隊還創建了一個互動網站,讓用戶能夠進行基於ICKG的基因集註釋。可透過[這個連結](https://kchen-lab.github.io/immune-knowledgegraph.github.io/)訪問。 PubMed DOI

這項研究提出了一個新穎的流程,結合大型語言模型(LLMs)與人類專家的知識,來優先排序特定的漿細胞相關基因。流程分為兩步: 1. **高通量篩選**:利用LLMs對17個基因進行評分,最終選出五個候選基因:CD38、TNFRSF17、IGJ、TOP2A和TYMS。 2. **人類增強驗證**:專家精煉評分,確認CD38和TNFRSF17為最佳候選基因。 分析轉錄組數據後,CD38被確定為最佳選擇,TNFRSF17和IGJ則是有潛力的替代選擇。這項研究展示了結合知識與數據的方法,適用於各種生物學背景。 PubMed DOI