原始文章

Blue5模型透過多任務學習(MTL)和實例選擇(IS)來解決生物醫學自然語言處理的計算挑戰。它基於SciFive框架,整合經過校準的支持向量機(SVM)分類器,提升效率與性能。該模型在BLUE基準測試中,平均數據減少26.6%,顯示其能有效選擇最具資訊性的實例,改善泛化能力。IS和MTL的結合不僅提升了性能,還讓先進的NLP技術在生物醫學研究和醫療應用中更具可擴展性與可及性。 PubMed DOI


站上相關主題文章列表

精煉生物醫學大型語言模型(LLMs)專注提升單一詞彙的生物醫學任務表現。為了解決這個問題,Taiyi雙語精煉LLM應運而生,處理多國語言的生物醫學自然語言處理任務。透過整合生物醫學數據並實施2階段的精煉策略,Taiyi在命名實體識別、關係提取和文本分類等任務中超越一般的LLMs。雖然Taiyi在生物醫學NLP雙語多任務上有潛力,但在資訊提取等任務上仍面臨挑戰,LLMs在這些任務中的表現不如傳統方法。 PubMed DOI

這篇論文評估了大型語言模型(LLMs)在各種生物醫學任務上的表現,發現即使在較小的生物醫學數據集上沒有進行特定微調,LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀,但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

臨床文本和文件是重要的醫療資訊來源,利用先進的語言技術處理對於發展支援醫療保健和社會福祉的智慧系統至關重要。我們使用多語言神經網絡模型,如Transformer,以及大規模預先訓練的語言模型進行轉移學習,研究臨床文本機器翻譯。我們的研究顯示,小型預先訓練的語言模型在臨床領域微調中表現優於更大的模型,這是一個新的發現。這些結果對於醫療保健領域的機器翻譯發展具有重要意義。 PubMed DOI

這個研究使用了一個名為BioInstruct的數據集,來提升生物醫學自然語言處理的大型語言模型表現。結果顯示,透過結合指導數據和多任務學習,以及有效微調參數,模型在各種BioNLP任務上有顯著改善。指導調整後的模型在生物醫學領域表現優異,尤其在相關任務微調時。BioInstruct數據集對提升BioNLP應用有重要價值。 PubMed DOI

開源多語言醫學語言模型的發展,旨在服務不同語言和地區的使用者。主要貢獻包括: 1. **MMedC Corpus**:一個包含約255億詞元的多語言醫學語料庫,涵蓋六種主要語言,促進大型語言模型的適應性。 2. **MMedBench**:一個多語言醫學多選題問答基準,幫助監測多語言醫學模型的進展。 3. **模型評估**:評估各種開源模型在MMedBench上的表現,最終產出MMed-Llama 3,擁有80億參數,表現超越其他開源模型,甚至可與GPT-4競爭。 總之,這項工作提供了全面的語料庫、基準和模型,推進多語言醫學模型的發展。 PubMed DOI

整合生物醫學知識對改善醫療診斷和個人化治療至關重要,但面臨數據集術語不一致的挑戰。生物醫學實體對齊是關鍵,需識別不同數據集中的等效實體。近期,大型語言模型(LLMs)如BERT在處理異質數據上顯示潛力,但無單一模型能解決所有實體匹配問題。為此,我們提出兩階段LLM構建框架(TSLLM),透過多目標和單目標遺傳算法自適應選擇和結合LLM,提升異質實體的區分能力。測試結果顯示,TSLLM在實體匹配上表現優於現有技術。 PubMed DOI

這項研究探討如何透過指令調整來提升大型語言模型(LLMs)在生物醫學自然語言處理任務的表現,像是命名實體識別(NER)、關係提取(RE)和醫學自然語言推理(NLI)。研究團隊使用約20萬個專注於指令的樣本來訓練模型,目的是達到與BioBERT和BioClinicalBERT等專門模型相當的效果。他們還分析了數據集的組成對模型表現的影響,並希望分享研究結果、代碼和模型,以促進該領域的進一步發展。 PubMed DOI

這項研究開發了一個名為RAMIE的框架,專門用來從臨床記錄中提取膳食補充劑的資訊,重點在四個任務:命名實體識別、關係提取、三元組提取和使用分類。RAMIE透過指令微調、多任務訓練和檢索增強生成來提升效率和性能。結果顯示,Llama2-13B模型在命名實體識別和關係提取上都有所提升,而Llama2-7B在三元組提取上表現更佳。整體而言,RAMIE在多任務資訊提取上顯示出顯著進展。 PubMed DOI

這項研究介紹了 MedS-Bench,旨在評估大型語言模型(LLMs)在臨床環境中的表現,涵蓋11個關鍵臨床任務。我們評估了九個知名的 LLM,發現它們在面對這些任務時表現不佳。為了解決這些問題,我們創建了 MedS-Ins,這是一個針對醫療應用的大規模指令調整數據集,包含58個醫療語料庫和500萬個實例。透過實驗,我們展示了該數據集的有效性,並開發出改進的模型 MMedIns-Llama 3。我們已公開 MedS-Ins,並鼓勵研究社群參與進一步發展。 PubMed DOI

BioMedGPT是一個新型的多模態大型語言模型,專為生物醫學研究設計,克服了現有模型的限制。它透過廣泛的生物醫學文獻進行預訓練,增強知識基礎,並整合2D分子圖、蛋白質序列與自然語言。實驗結果顯示,BioMedGPT在理解生物醫學文件及回答研究問題上,表現與人類專家相當,並在分子和蛋白質問答任務中顯著提升ROUGE-L分數。相關資源已在GitHub上公開,供大家使用。 PubMed DOI