原始文章

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 PubMed DOI


站上相關主題文章列表

這段文字探討了在對生物文本,特別是表型描述進行註釋時的挑戰,尤其是使用本體詞彙的情況。傳統文本挖掘工具在理解上下文方面表現不佳,而像OpenAI的GPT這類大型語言模型則更適合需要語義理解的任務。作者提出利用GPT對*Arabidopsis thaliana*和森林樹木的表型觀察進行本體詞彙註釋,目標是達到與人工註釋相當的效果。這些流程包括將表型解析為簡潔概念,並使用嵌入向量相似度和檢索增強生成(RAG)方法來識別合適的本體詞彙,最終實現高準確度的自動註釋。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

大型語言模型(LLMs)需要高品質的生醫註解來訓練,但這些註解很難取得。現在 LLMs 已能協助加速註解和資料整理,形成良性循環,但也帶來新風險和挑戰。本工作坊將討論 LLMs 在生醫領域的應用、優點及潛在問題。 PubMed DOI

這項研究發現,開源大型語言模型(LLM)在從腫瘤臨床試驗描述中萃取基因生物標記資訊,並將試驗資料結構化方面,表現比GPT-4等封閉模型更好。即使沒特別調整,開源模型就很厲害,經過微調後準確度還能再提升。這有助於病患媒合合適的臨床試驗。 PubMed DOI

Ontolomics-P 是一款操作簡單的網頁工具,專門分析蛋白質體學資料。它用 LDA 主題建模、GO 語意相似度和 GPT-4o 再註解,能把複雜的生物功能整理成清楚易懂的主題,還整合 10 種癌症的蛋白質資料,讓分析更全面、結果更好懂,幫助推動蛋白質體學研究。 PubMed DOI

這篇論文提出用大型語言模型(像 GPT-4o)自動化醫療術語對應 SNOMED CT 等本體,建立 RDF 知識圖譜。研究比較六種系統,發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多,能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI

這項研究比較 GPT-4o、Llama 3.1 和 Qwen 2.5 在癌症基因變異臨床分類的表現,發現 GPT-4o 準確率最高。LLMs 在有明確證據時表現佳,但遇到證據較弱的變異時一致性較差,且容易過度分類。透過 prompt 設計和檢索增強生成可提升準確度。整體來說,LLMs 有潛力,但臨床應用還需再優化。 PubMed DOI

這項研究發現,大型語言模型(LLMs)能自動從文本中擷取蛋白質交互等分子資料,表現比人工處理更有效率。雖然在部分基因細節上還有困難,但整體來說,LLMs有助於加速生物知識的發現與應用。 PubMed DOI

傳統基因集分析彈性有限,llm2geneset 利用大型語言模型,能根據基因和自然語言描述,動態產生專屬基因集,品質媲美甚至超越人工整理。這工具在解析高通量資料和找生物過程上,比傳統方法更有效。llm2geneset 已開源,網路上可免費取得。 PubMed DOI

最新的商業大型語言模型(像GPT-4o),在神經影像的中繼資料標註上,表現幾乎跟專業人員一樣好(zero-shot下得分0.91–0.97),錯誤率也差不多,很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集,方便未來測試。 PubMed DOI