Обложка канала

Глазарий языка

5476 @glazslov

Все важное и неважное о русском языке и русском мире

Глазарий языка

6 лет назад
Открыть в
​​ВОСПИТАТЬ В СЕБЕ СКУКУ

Подавляющее большинство современных систем автоматического извлечения терминологии используют статистический подход — это позволяет сделать их работу независимой от языка исследуемого корпуса. Такие системы работают с двумя корпусами: целевым, из которого необходимо извлечь терминологические единицы, и референционным — чаще всего национальным корпусом соответствующего языка, представляющим собой языковую систему в целом.

Для слов в целевом корпусе подсчитывается частота встречаемости, которая затем сравнивается с частотой встречаемости этого же слова в референционном корпусе. В результате сравнения частот употребления система присваивает единицам, отличающимся неожиданно высокой частотностью, статистическую меру ключевого слова (keyness score). Те слова, у которых keyness score оказывается выше определенного порога, записываются в кандидаты на присвоение им терминологического статуса.

На прикрепленной схеме показано распределение таких кандидатов в термины, отобранных нами на основе анализа шести учебников русского языка для 5 класса, включенных в федеральный перечень. Относительная близость/удаленность слов на карте дает представление о том, какие из них чаще/реже встречаются в непосредственной близости друг от друга.

Правая часть пространства заполнена собственно терминологической лексикой, а вот левая вызывает улыбку: конечно, это не термины. Это наиболее частотные слова из языковых примеров, используемых в учебниках. Анализ их по-своему познавателен. Они — яркое доказательство того, насколько невыносимо однообразна даже современная российская учебная литература с ее задавившей и выжегшей все остальное природоцентричностью.

Зачем и кому это нужно? Все эти аллегорические березки, эмоционально насыщенные лужицы, сентиментальные воробышки? Где нынешний пятиклассник и где скворечник? Смешно и скучно.

Задать вопрос @UchenyjBot