原始文章

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 PubMed DOI


站上相關主題文章列表

研究探討了大型語言模型如GPT-4 with vision和GPT-4 Turbo在解讀生物醫學圖表上的表現。模型在分類和標註圖像方面表現良好,但在節點關係上有挑戰。圖表比標題更準確,但有時缺少細節。研究顯示語言模型在理解生物機制上有潛力,並提出改善生物醫學信息中關係呈現的方法。 PubMed DOI

這項研究評估了21個大型語言模型(LLMs)在檢索生物知識的有效性,特別針對基因調控和KEGG途徑。隨著生物文獻的快速增長,傳統手動整理已不再足夠,LLMs成為一個有前景的替代方案。 結果顯示,模型性能差異明顯,GPT-4和Claude-Pro在基因調控關係的F1分數分別為0.4448和0.4386,KEGG途徑的Jaccard指數也表現強勁。相比之下,開源模型表現較差。研究強調選擇合適模型的重要性,並提供了LLMs在生物研究中的應用見解,相關代碼已在GitHub上公開。 PubMed DOI

GPTON 利用 GPT-4 來強化本體敘述,將結構化知識轉換為語言,並將本體術語整合進大型語言模型中。這種方法使得超過 68% 的基因集在前五名預測中能獲得準確的文本和本體註釋。手動評估證實了 GPTON 的有效性,顯示它如何運用 LLMs 和結構化知識,對生物醫學研究做出重要貢獻,超越了基因集的註釋範疇。 PubMed DOI

這段文字探討了在對生物文本,特別是表型描述進行註釋時的挑戰,尤其是使用本體詞彙的情況。傳統文本挖掘工具在理解上下文方面表現不佳,而像OpenAI的GPT這類大型語言模型則更適合需要語義理解的任務。作者提出利用GPT對*Arabidopsis thaliana*和森林樹木的表型觀察進行本體詞彙註釋,目標是達到與人工註釋相當的效果。這些流程包括將表型解析為簡潔概念,並使用嵌入向量相似度和檢索增強生成(RAG)方法來識別合適的本體詞彙,最終實現高準確度的自動註釋。 PubMed DOI

生物醫學文獻快速增長,讓手動整理知識變得困難,生物醫學自然語言處理(BioNLP)希望透過自動化來解決這些問題。儘管大型語言模型(LLMs)在多個領域展現潛力,但在BioNLP的有效性尚未確立。本研究系統評估了四個LLMs,包括GPT和LLaMA,並與傳統模型如BERT和BART比較。結果顯示,傳統微調方法在大多數任務中表現較佳,但GPT-4在推理任務中表現突出。開源LLMs仍需微調以提升性能,研究也指出LLM輸出中存在信息缺失和幻覺問題。 PubMed DOI

大型語言模型(LLMs)需要高品質的生醫註解來訓練,但這些註解很難取得。現在 LLMs 已能協助加速註解和資料整理,形成良性循環,但也帶來新風險和挑戰。本工作坊將討論 LLMs 在生醫領域的應用、優點及潛在問題。 PubMed DOI

這篇論文提出用大型語言模型(像 GPT-4o)自動化醫療術語對應 SNOMED CT 等本體,建立 RDF 知識圖譜。研究比較六種系統,發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多,能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI

這項研究發現,大型語言模型(LLMs)能自動從文本中擷取蛋白質交互等分子資料,表現比人工處理更有效率。雖然在部分基因細節上還有困難,但整體來說,LLMs有助於加速生物知識的發現與應用。 PubMed DOI

傳統基因集分析彈性有限,llm2geneset 利用大型語言模型,能根據基因和自然語言描述,動態產生專屬基因集,品質媲美甚至超越人工整理。這工具在解析高通量資料和找生物過程上,比傳統方法更有效。llm2geneset 已開源,網路上可免費取得。 PubMed DOI

最新的商業大型語言模型(像GPT-4o),在神經影像的中繼資料標註上,表現幾乎跟專業人員一樣好(zero-shot下得分0.91–0.97),錯誤率也差不多,很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集,方便未來測試。 PubMed DOI