原始文章

這項研究探討了研究人員在處理大量生物醫學文獻時的挑戰,並提出了一種混合方法,結合文本挖掘、圖神經網絡(GNNs)和微調的大型語言模型(LLMs)。這種方法旨在增強生物醫學知識圖譜,並解釋預測的關係。研究顯示,該方法在蛋白質相互作用數據集上達到0.772的馬修斯相關係數,並在失眠研究中識別出25個新的人類蛋白質相互作用。這種方法有助於加速治療靶點的發現,並提高文獻分析的效率。 PubMed DOI


站上相關主題文章列表

研究比較了21個大型語言模型(LLMs)在自動文本挖掘生物途徑的效能,專注於基因調控和KEGG途徑辨識。結果顯示,各模型表現不同,像是ChatGPT-4和Claude-Pro這類基於API的模型表現比開源模型好。LLMs在生物醫學研究中有潛力,可用於基因網絡分析和途徑對應,但因性能不同,選擇適合的模型至關重要。 PubMed DOI

在生物醫學領域,分析藥物相互作用對藥物發現至關重要。目前使用的人工智慧工具受限於編碼生物醫學功能和概念。LEDAP利用大型語言模型如ChatGPT,展現了預測藥物相關關聯的潛力。這些模型對自然語言有全面理解,在藥物開發分析中具潛力。LEDAP結合傳統機器學習方法,表現競爭性。這研究凸顯大型語言模型在藥物開發的重要潛力,為該領域帶來更多發展機會。 PubMed DOI

新藥開發和不良藥物反應檢測傳統上耗時且成本高,但隨著大規模醫療數據庫和大型語言模型的興起,藥物篩選變得更有效。本研究提出一個自動化高通量藥物篩選流程,具備多項優勢,包括估算藥物與疾病的關聯、整合藥物重新利用與監測、準確解析暴露時間等。研究分析了661萬名患者的數據,發現16,901對藥物-疾病組合顯著降低風險,11,089對則顯著增加風險,顯示出潛在的藥物重新利用和安全問題。這項研究展示了自然語言處理在藥物流行病學中的潛力。 PubMed DOI

藥物引起的肝損傷(DILI)是藥物安全性的重要議題,也是急性肝衰竭的主要原因。傳統的文獻搜尋方法因藥物相互作用的複雜性而效率不高,且手動整理容易出錯。近期,利用大型語言模型(LLMs)如LLaMA-2,研究人員開發了專門用於DILI分析的模型,並在CAMDA 2022的數據集上達到97.19%的準確率,顯示出LLMs在文獻識別上的潛力,可能簡化監管審查流程。 PubMed DOI

自動生成知識圖譜能有效提升資訊的組織性與可及性,並加速發現與創新。本研究介紹了一個利用大型語言模型在主動學習框架下創建大規模知識圖譜的流程,專注於生鮮食品、成分與化學物質的關係。透過迭代的主動學習策略,從155,260篇科學論文中提取了230,848個食品-化學成分關係,其中46%為新發現。此外,還利用鏈接預測模型發掘了355個新的食品-化學關係,顯示出強烈的發現潛力。這項研究展示了如何透過文獻進行大規模自動學習,促進實際應用的發展。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來提升計算藥物重定位的能力,特別是預測藥物與疾病的關聯。傳統方法常受限於不完整的數據,而LLMs能提供豐富的生物醫學知識。研究人員開發了零樣本提示模板,並提出三種模型架構,結果顯示LLM-DDA<sub>GNN-AE</sub>在多項指標上表現優於其他模型。案例研究也證實了該模型在識別可靠藥物與疾病關聯方面的能力,顯示LLMs在藥物重定位及其他生物醫學任務中的潛力。 PubMed DOI

這項研究評估了21個大型語言模型(LLMs)在檢索生物知識的有效性,特別針對基因調控和KEGG途徑。隨著生物文獻的快速增長,傳統手動整理已不再足夠,LLMs成為一個有前景的替代方案。 結果顯示,模型性能差異明顯,GPT-4和Claude-Pro在基因調控關係的F1分數分別為0.4448和0.4386,KEGG途徑的Jaccard指數也表現強勁。相比之下,開源模型表現較差。研究強調選擇合適模型的重要性,並提供了LLMs在生物研究中的應用見解,相關代碼已在GitHub上公開。 PubMed DOI

這項研究旨在提升神經生物銀行(NBB)中非結構化神經病理數據的可尋找性、可及性、互操作性和可重用性,並探討大型語言模型(LLMs)的應用。研究針對822名帕金森病捐贈者,開發以腦區和病理發現為中心的數據模型,促進數據轉換為通用數據元素,增進神經科學社群的數據共享。試點研究顯示,LLMs在結構化非結構化報告方面的提取質量可與人工整理相媲美,為PD研究提供了重要資源,並有助於整合臨床和遺傳信息,深化對帕金森病的理解。 PubMed DOI

研究蛋白質-蛋白質相互作用(PPIs)對於理解生物過程非常重要,尤其是在抗體與抗原、酶與抑制劑或促進劑的互動上。近期針對PPIs的研究,特別是與SARS-CoV-2的關聯,推動了疫苗的開發。雖然已有數據庫整理PPI網絡,但文本挖掘方法在新研究或少數物種中顯得尤為重要。比較不同的自然語言處理(NLP)工具後發現,傳統方法真陽性率高但網絡過度連接,機器學習方法則網絡結構相似但真陽性率低,而大型語言模型的表現則介於兩者之間。選擇合適的NLP方法需根據研究需求和文本量。 PubMed DOI

在科學研究中,隨著出版物數量的增加,管理變得愈加困難。為了解決這個問題,我們開發了一個高通量流程,利用ChatGPT從超過24,000篇秀麗隱杆線蟲和150,000篇果蠅的文獻中提取資訊,成功識別了超過200,000個C. elegans的互動及近120萬個果蠅的互動,建立了全面的生物圖譜。我們還創建了一個可搜尋的線上平台,方便使用者訪問這些知識網絡,並突顯了重要的生物途徑。這些數據庫可在worm.bio-map.com和drosophila.bio-map.com訪問。 PubMed DOI