Обложка канала

Лингвистика на коленке

Я лингвист-дилетант, изучаю романские языки, а также адепт самообучения

Лингвистика на коленке

7 лет назад
Открыть в
В Zalandoresearch сделали совершенно потрясающую NLP библиотеку для NER, POS, desambiguation, классификации, работы с embeddings (Glove, FastText, BERT и их собственные). Работает на базе Pytorch и очень-очень простая в использовании, так что даже лингвисты теперь могут тренировать свои модели, используя нейросети. Не нужно знать математику, Numpy и подробную теорию дип-ленинга. Достаточно знаний о параметрах, чем они отличаются и как найти наиболее подходящие. 


Другой вопрос, что пока что на моем корпусе нейросети уступают в точности и F-score простому Support vector machine. Надеюсь, мои преподаватели объяснят мне этот феномен. 


Собственно, библиотека: 


https://github.com/zalandoresearch/flair  


Понятный туториал как сделать классификационную модель: 

https://towardsdatascience.com/text-classification-with-state-of-the-art-nlp-library-flair-b541d7add21f  


И вообще весь этот блог очень хороший, я много полезного из него взяла для упражнений.