原始文章

T細胞受體(TCR)在免疫系統中非常重要,了解其複雜性能提升我們對癌症免疫反應的預測能力。現有方法常忽略TCR序列間的相互作用,影響預測效果。為了解決這個問題,我們推出了BertTCR,一個新穎的深度學習框架,能從TCR中提取更豐富的上下文信息。BertTCR在甲狀腺癌檢測上,曲線下面積(AUC)提升21個百分點,超越三種主流方法,並在2000多個TCR文庫上訓練,展現出強大的分類能力,對癌症免疫狀態預測具有良好前景。 PubMed DOI


站上相關主題文章列表

研究使用XLNET、BERT和DNABERT等自然語言處理模型,成功預測藍綠藻的啟動子,進而合成化合物。開發了TSSNote-CyaPromBERT平台,方便數據提取和預測。研究指出,這些模型對分析DNA序列及辨識新菌株的啟動子區域相當有幫助。 PubMed DOI

研究比較了不同NLP模型在擷取非小細胞肺癌患者影像報告中的癌症結果。結果顯示,DFCI-ImagingBERT表現最佳,但簡單模型也不錯。若資源有限,簡單機器學習模型仍可有效。 PubMed DOI

化學和生物學領域正運用大型語言模型,像是變壓器(transformers),來開創治療方法和理解的新可能性。研究團隊開發了GPCR-BERT模型,專門用於分析重要藥物靶點G蛋白偶聯受體(GPCRs)的序列設計。透過預先訓練蛋白質模型並微調預測任務,揭示了氨基酸序列、配體選擇性和GPCRs構象基序之間的關係。這個高準確性的模型提供了對受體構象內部相互作用的深入洞察。 PubMed DOI

這項研究使用了一個預先訓練的語言模型來檢測和提取臨床記錄中的癌症症狀,成功地在識別各種症狀方面達到了高準確度。這個模型的有效性突顯了對領域特定數據進行專門預訓練以增強醫學應用語言模型的潛力,特別是在改善癌症患者的症狀管理方面。 PubMed DOI

介紹了一個新的乳腺癌分類模型,可以幫助辨識轉移性乳腺癌。這個BG-MBC模型結合了BERT和GNNs,能根據組織病理學報告預測MBC。透過語義信息和關鍵特徵,模型表現準確且效能優異。 PubMed DOI

致癌物的識別與分類對癌症流行病學非常重要,但現有系統如IARC和NTP面臨文獻增長的挑戰。為此,我們開發了CarD-T框架,利用變壓器技術有效識別潛在致癌物。CarD-T在已知致癌物的PubMed摘要上進行訓練,並成功識別了60%的已確立致癌物,還提名了約1500個潛在致癌物。與GPT-4相比,CarD-T在召回率和F1分數上表現更佳,並能評估致癌性矛盾證據。總之,CarD-T是識別致癌物的強大工具,提升公共健康應對能力。 PubMed DOI

在循證醫學中,隨機對照試驗(RCTs)對臨床指導方針至關重要,但傳統的手動數據提取效率低。為了解決這個問題,我們開發了一個針對傳統中醫(TCM)RCT的自動化信息提取模型,使用Evi-BERT結合規則提取技術,從48,523篇研究中提取數據。我們的模型顯著提高了數據的可搜索性和提取效率,並保持高準確性,幫助醫師節省文獻審查時間,加速臨床試驗證據的識別,最終促進精確的臨床指導方針制定。 PubMed DOI

這項研究介紹了iLLMAC,一個經過指令調整的大型語言模型,專注於利用游離DNA(cfDNA)進行癌症檢測。iLLMAC在1,135名癌症患者和1,106名對照組的血漿cfDNA數據上訓練,癌症診斷的AUROC達0.866,肝細胞癌(HCC)檢測則達0.924。隨著末端動機數量增加,性能提升,使用64個末端動機時,癌症診斷AUROC達0.886,HCC檢測AUROC達0.956。外部測試中,iLLMAC仍表現優異,顯示出基於LLM的指令調整在cfDNA癌症檢測中的潛力。 PubMed DOI

這項研究專注於從非結構化的臨床筆記中提取與腫瘤學相關的結構化資訊,特別是癌症藥物與症狀負擔的關係。研究人員建立了名為CACER的資料集,包含超過48,000個醫療問題和藥物事件的詳細註解。經過微調的BERT和Llama3模型在事件提取上表現最佳,F1分數分別為88.2和88.0,而GPT-4在這些任務中的表現最差。這顯示微調模型在特定任務上更有效,CACER資料庫為未來的醫療資訊提取研究提供了重要資源。 PubMed DOI

這項研究探討大型語言模型(LLMs)在識別接受免疫檢查點抑制劑(ICI)治療患者的免疫相關不良事件(irAEs)中的應用,並與傳統手動裁定及ICD代碼進行比較。研究分析了超過12年的住院紀錄,發現LLMs在檢測irAEs的敏感性顯著高於ICD代碼,且效率更佳,平均每份病歷僅需9.53秒。總體來說,LLMs被認為是檢測irAEs的有效工具,提供更高的敏感性和效率。 PubMed DOI