原始文章

這項研究旨在透過自動化系統提升從科學文獻中提取藥物動力學(PK)數據的效率。研究團隊建立了一個包含2,640個專家標註表格的語料庫,並訓練了一個監督式分類流程,結合GPT-4來改善預測準確度,F1分數超過96%。該模型應用於PubMed Central的PK論文,並整合到www.pkpdai.com的搜尋工具中,代表自動化PK數據提取的重要進展,語料庫和代碼已公開。 PubMed DOI


站上相關主題文章列表

準確預測ADMET(吸收、分佈、代謝、排泄和毒性)特性對藥物開發非常重要,能幫助選擇具良好藥物動力學及降低毒性的化合物。目前的ADMET數據集因樣本數量少及代表性不足而受限。為了解決這些問題,我們提出了一個多代理數據挖掘系統,利用大型語言模型識別14,401個生物測試的實驗條件,並整合不同來源的數據,最終創建了PharmaBench,包含156,618條原始條目,旨在支持藥物發現相關的AI模型開發。 PubMed DOI

這項研究探討了結合MegaMolBART編碼器與XGBoost分類器的模型,成功預測化合物的血腦屏障(BBB)通透性。研究使用4956種BBB+和2851種BBB-的數據集,並分析了2461種BBB+和2184種BBB-化合物。發現temozolomide及21種化合物的通透性係數超過10 × 10<sup>-7</sup> cm/s,顯示其顯著通透性。此外,研究還評估了化合物的ADME特性及其對腦內皮細胞的細胞毒性影響,強調AI在藥物發現中的潛力。 PubMed DOI

這項研究介紹了MaTableGPT,一個基於GPT的工具,專門從材料科學文獻中的表格提取數據,特別針對水分解催化劑。傳統的提取方法因表格格式多樣而不夠有效。MaTableGPT透過改進的數據表示和分割策略,提升理解能力,提取準確率高達96.8%。研究比較了零樣本、少樣本和微調學習方法,發現少樣本學習在準確性和成本上達到最佳平衡,提取準確率超過95%。此外,MaTableGPT建立的數據庫為催化劑的過電位和元素利用率提供了重要見解。 PubMed DOI

我們開發了一個自動化工具,利用大型語言模型(LLM)來簡化從超過81,000篇與蛋白質資料庫(PDB)相關的文章中提取和分類蛋白質的表達及純化方法。這個工具能有效解決優化蛋白質樣本的挑戰,因為表達條件和純化策略的變化常常耗時。主要發現包括:Tris緩衝液最常用,聚組氨酸標籤佔主導,最佳表達溫度為16-20 °C,誘導時間偏好12-16小時。這個資源對研究人員設計蛋白質實驗非常有幫助。 PubMed DOI

這項研究用大型語言模型和提示工程,自動從論文中擷取奈米毒性資料,準確度很高(F1 分數最高87.6%)。擷取的資料再用來訓練機器學習模型,預測奈米毒性時F1分數也超過86%。這方法有效減少人工整理資料的負擔,還能提升資料品質,對奈米毒性研究很有幫助。 PubMed DOI

這項研究開發了一套免寫程式碼、全自動化的方法,利用GPT-4o mini從50份藥品說明書中擷取兒童用藥資訊。辨識兒科適應症時,召回率高達95%、精確率有78%,證明大型語言模型能有效分類適合兒童的藥物。這工具讓沒IT背景的醫療人員也能輕鬆操作。 PubMed DOI

這項研究比較多款AI工具在藥廠和醫療領域的文獻回顧及法規文件撰寫表現,發現ELISE在準確度、推理和合規性都勝過其他工具,最適合高風險應用。不過,人工監督還是不可或缺,AI只能輔助專家,不能完全取代專業審查。 PubMed DOI

TrialSieve 是一套新架構,專門從臨床文獻中萃取生醫資訊,採用分層、以治療組為主的圖形結構,比傳統 PICO 更有效率。它推出含 1609 篇 PubMed 摘要、20 種實體類型的標註資料集,並測試多種 NLP 模型,發現 BioLinkBERT 和 PubMedBERT 表現最好。這套架構也讓人工標註更快更準,有助於自動化生醫資訊萃取。 PubMed DOI

這項研究比較多款大型語言模型在自動化 pharmacometrics 任務的表現,發現 Claude 3.5 Sonnet 在產生模型圖、參數表和報告上最準確且易用。ChatGPT 4o 雖能模擬,但遇到複雜模型會卡關。整體來說,LLMs 有助於簡化工作流程,但還是需要專家把關結果。 PubMed DOI

這項研究用小型transformer和GPT-4o模型來分類醫學文獻,判斷是不是RCT和是否跟腫瘤學有關,兩種方法的準確率都很高,尤其是RCT分類F1分數超過0.9。之後再用簡單規則式,準確找出腫瘤學RCT的腫瘤類型,讓後續專業處理更有效率。 PubMed DOI