這篇論文探討了一種基於變壓器的西班牙臨床文本症狀命名實體識別(NER)方法,並使用SympTEMIST數據集進行多語言實體連結。作者微調了一個基於RoBERTa的標記級分類器,並結合了雙向長短期記憶和條件隨機場層,最終達到0.73的F1分數。實體連結方面,採用混合方法,結合字典和統一醫學語言系統的知識庫,並利用SapBERT生成候選實體,使用GPT-3.5進行重新排序,達到0.73的準確率,超越了之前的紀錄。數據庫可在此網址訪問:https://github.com/svassileva/symptemist-multilingual-linking。
PubMed
DOI