開源多語言醫學語言模型的發展,旨在服務不同語言和地區的使用者。主要貢獻包括:
1. **MMedC Corpus**:一個包含約255億詞元的多語言醫學語料庫,涵蓋六種主要語言,促進大型語言模型的適應性。
2. **MMedBench**:一個多語言醫學多選題問答基準,幫助監測多語言醫學模型的進展。
3. **模型評估**:評估各種開源模型在MMedBench上的表現,最終產出MMed-Llama 3,擁有80億參數,表現超越其他開源模型,甚至可與GPT-4競爭。
總之,這項工作提供了全面的語料庫、基準和模型,推進多語言醫學模型的發展。
PubMed
DOI