原始文章

GPTON 利用 GPT-4 來強化本體敘述,將結構化知識轉換為語言,並將本體術語整合進大型語言模型中。這種方法使得超過 68% 的基因集在前五名預測中能獲得準確的文本和本體註釋。手動評估證實了 GPTON 的有效性,顯示它如何運用 LLMs 和結構化知識,對生物醫學研究做出重要貢獻,超越了基因集的註釋範疇。 PubMed DOI


站上相關主題文章列表

這項研究著重評估GPT-4在生物醫學評論論文中的文本、表格和圖表生成能力,並強調一致性和抄襲問題。提出了一些建議,以增強ChatGPT在科學領域的應用,包括改進文件處理、理解複雜的生物醫學概念、精確的表格生成,以及為科學圖表設計專用模型。 PubMed DOI

研究探討了大型語言模型如GPT-4 with vision和GPT-4 Turbo在解讀生物醫學圖表上的表現。模型在分類和標註圖像方面表現良好,但在節點關係上有挑戰。圖表比標題更準確,但有時缺少細節。研究顯示語言模型在理解生物機制上有潛力,並提出改善生物醫學信息中關係呈現的方法。 PubMed DOI

研究指出使用 GPT-4 模型作為生物系統模擬器有潛力,稱為 SimulateGPT。專家評估發現在基因必需性和癌症存活預測等實驗中表現良好。這種語言模型或許可用於建立生物醫學模擬器,特別適用於處理大量以文字呈現的知識和複雜系統。未來發展可考慮整合網頁檢索、數學建模和實驗數據微調。 PubMed DOI

這篇手稿介紹了PheNormGPT,這是一個專門從臨床文本中提取和標準化關鍵發現的框架。它利用大型語言模型,特別是OpenAI的GPT-3.5 Turbo和GPT-4,來識別並將表型數據映射到人類表型本體的概念。這個框架結合了微調和獨特的少量學習策略,根據特定需求自訂範例選擇。在BioCreative VIII Track 3競賽中,PheNormGPT專注於從畸形學的身體檢查記錄中提取遺傳表型,並取得了優異的成績,標準匹配的F1分數為0.82,精確匹配的F1分數為0.72,並獲得第一名。 PubMed DOI

這項研究評估了五種大型語言模型(LLMs)在識別基因集共同功能的有效性,並探討現有基因功能數據庫的限制。結果顯示,GPT-4在73%的案例中提出的功能與整理的基因集名稱相符,且其自信度與準確性相關。相比之下,隨機基因集的零自信率高達87%。其他模型如GPT-3.5和Gemini Pro則表現不一,經常在隨機基因集上出現錯誤自信。GPT-4在分析組學數據的基因簇時,識別出共同功能的案例達45%,顯示其在特異性和基因覆蓋率上優於傳統方法,顯示LLMs在組學研究中的潛力。 PubMed DOI

你的專案專注於提升大型語言模型(LLMs)在基因組學的表現,特別是透過整合變異註解數據。你成功將1.9億條準確的變異註解整合進GPT-4o,讓使用者能查詢特定基因變異並獲得詳細解釋。雖然微調有助於提升表現,但檢索增強生成(RAG)在數據量和成本效益上更具優勢。這項研究不僅提高了變異解釋的可及性,也為未來基因組學的AI系統發展樹立了榜樣,展現了LLMs的潛力。公開數據集可依需求分享。 PubMed DOI

這段文字探討了在對生物文本,特別是表型描述進行註釋時的挑戰,尤其是使用本體詞彙的情況。傳統文本挖掘工具在理解上下文方面表現不佳,而像OpenAI的GPT這類大型語言模型則更適合需要語義理解的任務。作者提出利用GPT對*Arabidopsis thaliana*和森林樹木的表型觀察進行本體詞彙註釋,目標是達到與人工註釋相當的效果。這些流程包括將表型解析為簡潔概念,並使用嵌入向量相似度和檢索增強生成(RAG)方法來識別合適的本體詞彙,最終實現高準確度的自動註釋。 PubMed DOI

Ontolomics-P 是一款操作簡單的網頁工具,專門分析蛋白質體學資料。它用 LDA 主題建模、GO 語意相似度和 GPT-4o 再註解,能把複雜的生物功能整理成清楚易懂的主題,還整合 10 種癌症的蛋白質資料,讓分析更全面、結果更好懂,幫助推動蛋白質體學研究。 PubMed DOI

這篇論文提出用大型語言模型(像 GPT-4o)自動化醫療術語對應 SNOMED CT 等本體,建立 RDF 知識圖譜。研究比較六種系統,發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多,能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI

這篇研究用微調過的GPT大型語言模型,來自動把生物樣本標籤對應到本體論術語,減少人工註解負擔。實驗結果顯示,GPT模型在細胞株和細胞類型的召回率高達88–97%,但精確度只有47–64%。雖然能提升註解效率,但精確度還有進步空間,專家審查仍不可少。 PubMed DOI