Consequences of training data composition for deep learning models in single-cell biology.
單細胞生物學中訓練數據組成對深度學習模型的影響。 bioRxiv 2025-03-10

這項研究探討訓練數據集的組成如何影響單細胞轉錄組學模型在人體造血中的表現。研究結果顯示： 1. 模型對新細胞類型的泛化能力較差。 2. 在健康細胞訓練集中加入惡性細胞，並不一定能改善對新惡性細胞的建模。 3. 使用胚胎幹細胞分化圖譜訓練可提升在分佈外數據任務的表現。這些發現強調了多樣化訓練數據對開發有效單細胞模型的重要性，並提出了未來模型優化的策略。 PubMed DOI

uHAF: a unified hierarchical annotation framework for cell type standardization and harmonization.
uHAF：一個統一的層級註釋框架，用於細胞類型標準化和協調。 Bioinformatics 2025-04-02

在單細胞轉錄組學中，細胞類型註解不一致會影響數據整合與機器學習。為了解決這個問題，我們開發了統一的層級註解框架（uHAF），包含器官特定的層級細胞類型樹（uHAF-T）和大型語言模型驅動的映射工具（uHAF-Agent）。uHAF-T 提供38個器官的標準化參考，促進一致的標籤統一。uHAF-Agent 利用 GPT-4 將多樣的細胞標籤映射到 uHAF-T，簡化協調過程。這個框架增強了數據整合，支持機器學習，並促進單細胞研究的合作。uHAF 可在 https://uhaf.unifiedcellatlas.org 和 https://github.com/SuperBianC/uhaf 獲得，補充數據也可在 Bioinformatics 在線查詢。 PubMed DOI

Spatial transcriptomics AI agent charts hPSC-pancreas maturation <i>in vivo</i>.
空間轉錄體學 AI 智能代理繪製 hPSC-胰臟於體內成熟的圖譜 bioRxiv 2025-04-16

STAgent 是一套自主 AI 系統，能快速分析空間轉錄體學資料，還會自動產生程式碼、解讀分布、查文獻，幾乎不用人工介入就能完成報告。應用在胰臟細胞研究時，能迅速找出關鍵機制，讓分析更快、門檻更低，為相關研究帶來新突破。 PubMed DOI

Towards multimodal foundation models in molecular cell biology.
邁向分子細胞生物學中的多模態基礎模型 Nature 2025-04-16

Omics 資料量暴增，超出現有分析能力，但大型語言模型（LLMs）能解決這問題。透過多模態基礎模型預訓練，可有效解析基因體、轉錄體等多元資料，應用於細胞分類、生物標記發現、基因調控等，推動 AI 驅動的生物研究，深入了解生命科學。 PubMed DOI

Use of Large Language Models in Clinical Cancer Research.
大型語言模型在臨床癌症研究中的應用 JCO Clin Cancer Inform 2025-05-19

AI大型語言模型正改變癌症研究，能協助資料擷取、分析、病患配對及多元資料整合，讓流程更有效率、決策更快速。不過，資料隱私、準確性、成本和法規等問題，還是需要特別注意。 PubMed DOI

Clinical Information Extraction with Large Language Models: A Case Study on Organ Procurement.
利用大型語言模型進行臨床資訊擷取：以器官摘取為案例研究 AMIA Annu Symp Proc 2025-05-26

這篇文章說明大型語言模型（LLMs）能準確從臨床文本抓取數值資料，像是檢驗數據和生命徵象。作者提出新提示策略和方法，能有效降低錯誤，並在標註病歷上驗證成果，也證明這方法適用於大量器官捐贈者資料分析，有助提升器官採集資料的研究可用性。 PubMed

Large Language Models Can Extract Metadata for Annotation of Human Neuroimaging Publications.
大型語言模型可用於提取人類神經影像學文獻的註釋中繼資料 bioRxiv 2025-06-04

最新的商業大型語言模型（像GPT-4o），在神經影像的中繼資料標註上，表現幾乎跟專業人員一樣好（zero-shot下得分0.91–0.97），錯誤率也差不多，很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集，方便未來測試。 PubMed DOI

Bridging Large Language Models and Single-Cell Transcriptomics in Dissecting Selective Motor Neuron Vulnerability.
連結大型語言模型與單細胞轉錄體學於解析選擇性運動神經元易感性的研究 ArXiv 2025-06-04

我們提出一種新方法，結合NCBI Gene的基因描述和大型語言模型，將單細胞RNA定序資料轉換成有意義的向量。做法是先找出每個細胞表現量最高的基因，擷取基因註解，再用語言模型轉成向量，並依表現量加權。這樣不只提升解釋性，也讓細胞分群和分析更精準。 PubMed

CytoLNCpred-a computational method for predicting cytoplasm associated long non-coding RNAs in 15 cell-lines.
CytoLNCpred—一種用於預測15種細胞株中細胞質相關長鏈非編碼RNA的計算方法 Front Bioinform 2025-06-10

這項研究開發了新型機器學習和深度學習模型，能預測15種人類細胞株中，哪些長鏈非編碼RNA在細胞質比細胞核更豐富。傳統機器學習模型表現比大型語言模型更好，AUC分數約0.71。研究團隊也提供了細胞株專屬的預測工具和網頁伺服器，方便研究人員使用。 PubMed DOI

Annotation of biological samples data to standard ontologies with support from large language models.
結合大型語言模型輔助，將生物樣本數據註釋至標準本體的研究 Comput Struct Biotechnol J 2025-06-13

這篇研究用微調過的GPT大型語言模型，來自動把生物樣本標籤對應到本體論術語，減少人工註解負擔。實驗結果顯示，GPT模型在細胞株和細胞類型的召回率高達88–97%，但精確度只有47–64%。雖然能提升註解效率，但精確度還有進步空間，專家審查仍不可少。 PubMed DOI

原始文章

站上相關主題文章列表