原始文章

Seqwash是一種創新的演算法,利用大型語言模型來協調免疫細胞的測序資料。它透過創建統一的序列表示,有效過濾不相關信息,並突顯重要模式。評估結果顯示,Seqwash能標準化免疫細胞資料,提升特徵質量,並在各種下游任務中(無論是監督式或非監督式)改善與測序數據相關的表現。 PubMed DOI


站上相關主題文章列表

研究利用GenSLMs技術,成功辨識及分類新冠病毒變異。透過大型語言模型分析基因組數據,GenSLMs能快速又精確地偵測引起關注的變異。這些模型經過大量數據訓練,在超級電腦和人工智慧加速器上表現優異。這種方法對於了解新冠病毒演變具有重要意義,並有潛力應用在其他生物數據研究上。 PubMed DOI

研究發現,利用蛋白質語言模型能夠改善病毒序列註釋,發現新的病毒蛋白質,並擴展海洋病毒體系的註釋。這種方法在海洋微生物中找到新的DNA編輯蛋白質家族,提升病毒蛋白質的辨識,並帶來新的生物發現。 PubMed DOI

研究使用大型語言模型(LLMs)探討基於知識的基因優先順序和選擇,專注於與紅血球特徵相關的血液轉錄模組。結果顯示,OpenAI的GPT-4和Anthropic的Claude在LLMs中表現最佳。研究找出了模組M9.2的頂尖基因候選者,顯示LLMs在基因選擇上的潛力,有助於提升生物醫學知識的應用價值。 PubMed DOI

AbGAN-LMG是一種新型生成對抗網路,利用語言模型改進高品質抗體的生成。研究指出AbGAN-LMG在COVID-19和MERS-CoV抗體上的應用,提升生成序列的多樣性和品質。對抗體AZD-8895的研究發現,超過50%的生成序列具有更佳性質。分子對接確認了70種抗體對SARS-CoV-2 RBD的親和力高於AZD-8895。AbGAN-LMG結合語言模型與GANs,提升抗體優化效率。詳情請見:http://39.102.71.224:88/。 PubMed DOI

公開資料庫中註釋蛋白質序列,尤其是病毒蛋白質,挑戰性高。新方法結合大型語言模型(LLMs)和基於嵌入的軟對齊算法,提升註釋效率和可解釋性。這方法在識別和註釋序列方面優於傳統方法,尤其在病毒基因組學中。LLMs有潛力改進蛋白質功能推斷,提供更有效和精確的分子生物學研究方法。 PubMed DOI

透過序列數據訓練的語言模型可學習蛋白質設計原則,但蛋白功能受結構影響。結合語言模型與結構資訊,可引導蛋白演化,改良抗SARS-CoV-2抗體,增強對病毒變異的中和能力。整合結構數據有助於找出有效蛋白演化路徑,無需特定訓練。 PubMed DOI

大型語言模型(LLMs)正在改變科學界,尤其是生物醫學領域。生物學的重點在於理解生物序列,這與自然語言處理的目標相似。基因組語言模型(gLMs)專門針對DNA序列訓練,能幫助我們更好地理解基因組及DNA元素的互動,進而揭示複雜的生物功能。這篇評論強調了gLMs在適應性預測、序列設計和轉移學習等方面的潛力,但在創建有效的gLMs時仍面臨挑戰,特別是對於大型且複雜的基因組物種。還討論了gLMs開發和評估時需考慮的重要因素。 PubMed DOI

這項研究探討小型大型語言模型(sLLM)在從病理報告中提取關鍵資訊的效果。使用三個版本的Llama 2模型,參數從70億到700億不等,並在零樣本和五樣本學習情境下進行評估。結果顯示,700億參數的模型在五樣本情境下表現優異,顯示sLLM能有效提升數據提取的效率與準確性。研究強調範例學習的重要性,並討論模型大小、準確性及處理時間的權衡,支持在臨床環境中應用先進語言模型,以改善病人護理和生物醫學研究。 PubMed DOI

這項研究介紹了iLLMAC,一個經過指令調整的大型語言模型,專注於利用游離DNA(cfDNA)進行癌症檢測。iLLMAC在1,135名癌症患者和1,106名對照組的血漿cfDNA數據上訓練,癌症診斷的AUROC達0.866,肝細胞癌(HCC)檢測則達0.924。隨著末端動機數量增加,性能提升,使用64個末端動機時,癌症診斷AUROC達0.886,HCC檢測AUROC達0.956。外部測試中,iLLMAC仍表現優異,顯示出基於LLM的指令調整在cfDNA癌症檢測中的潛力。 PubMed DOI

這項研究探討大型語言模型(LLMs)在識別接受免疫檢查點抑制劑(ICI)治療患者的免疫相關不良事件(irAEs)中的應用,並與傳統手動裁定及ICD代碼進行比較。研究分析了超過12年的住院紀錄,發現LLMs在檢測irAEs的敏感性顯著高於ICD代碼,且效率更佳,平均每份病歷僅需9.53秒。總體來說,LLMs被認為是檢測irAEs的有效工具,提供更高的敏感性和效率。 PubMed DOI