原始文章

CellTypeAgent 是一款新工具,結合大型語言模型和資料庫驗證,能自動又精確地標註單細胞 RNA 定序資料的細胞類型。它比現有方法更準確、錯誤率更低,已在九個資料集、36 種組織、303 種細胞類型上測試,展現出快速又可靠的標註潛力。 PubMed


站上相關主題文章列表

研究探討了大型語言模型如GPT-4 with vision和GPT-4 Turbo在解讀生物醫學圖表上的表現。模型在分類和標註圖像方面表現良好,但在節點關係上有挑戰。圖表比標題更準確,但有時缺少細節。研究顯示語言模型在理解生物機制上有潛力,並提出改善生物醫學信息中關係呈現的方法。 PubMed DOI

Cell2Sentence (C2S) 是一種新方法,旨在將大型語言模型應用於單細胞轉錄組學。它透過將基因表達數據轉換為「細胞句子」,在自然語言處理與生物數據之間架起橋樑。C2S 允許對語言模型進行微調,以執行多種生物學任務,如生成和註解細胞類型。實驗顯示,微調後的 GPT-2 能生成生物學上有效的細胞類型,顯示出語言模型對單細胞生物學的深入理解。C2S 提供了一個多功能且友好的框架,結合自然語言處理與轉錄組學,適用於各種生物學應用。 PubMed DOI

空間轉錄組學是理解組織細胞組成的重要工具,尤其在癌症研究中,腫瘤微環境至關重要。然而,數據的複雜性使解釋變得困難。本研究探討大型語言模型(LLMs)在分析小鼠黑色素瘤模型的空間轉錄組數據的應用。研究發現Claude 3.5 Sonnet在斑點量化和模式識別上表現最佳,並開發出系統化工作流程,幫助分析腫瘤免疫景觀。該模型揭示了免疫抑制機制,並顯示LLMs在空間轉錄組學中的潛力,能有效提升數據解釋的能力。 PubMed DOI

在單細胞轉錄組學中,細胞類型註解不一致會影響數據整合與機器學習。為了解決這個問題,我們開發了統一的層級註解框架(uHAF),包含器官特定的層級細胞類型樹(uHAF-T)和大型語言模型驅動的映射工具(uHAF-Agent)。uHAF-T 提供38個器官的標準化參考,促進一致的標籤統一。uHAF-Agent 利用 GPT-4 將多樣的細胞標籤映射到 uHAF-T,簡化協調過程。這個框架增強了數據整合,支持機器學習,並促進單細胞研究的合作。uHAF 可在 https://uhaf.unifiedcellatlas.org 和 https://github.com/SuperBianC/uhaf 獲得,補充數據也可在 Bioinformatics 在線查詢。 PubMed DOI

AI大型語言模型正改變癌症研究,能協助資料擷取、分析、病患配對及多元資料整合,讓流程更有效率、決策更快速。不過,資料隱私、準確性、成本和法規等問題,還是需要特別注意。 PubMed DOI

這篇文章說明大型語言模型(LLMs)能準確從臨床文本抓取數值資料,像是檢驗數據和生命徵象。作者提出新提示策略和方法,能有效降低錯誤,並在標註病歷上驗證成果,也證明這方法適用於大量器官捐贈者資料分析,有助提升器官採集資料的研究可用性。 PubMed

最新的商業大型語言模型(像GPT-4o),在神經影像的中繼資料標註上,表現幾乎跟專業人員一樣好(zero-shot下得分0.91–0.97),錯誤率也差不多,很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集,方便未來測試。 PubMed DOI

我們提出一種新方法,結合NCBI Gene的基因描述和大型語言模型,將單細胞RNA定序資料轉換成有意義的向量。做法是先找出每個細胞表現量最高的基因,擷取基因註解,再用語言模型轉成向量,並依表現量加權。這樣不只提升解釋性,也讓細胞分群和分析更精準。 PubMed

這項研究開發了新型機器學習和深度學習模型,能預測15種人類細胞株中,哪些長鏈非編碼RNA在細胞質比細胞核更豐富。傳統機器學習模型表現比大型語言模型更好,AUC分數約0.71。研究團隊也提供了細胞株專屬的預測工具和網頁伺服器,方便研究人員使用。 PubMed DOI

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 PubMed DOI