Подавляющее большинство современных систем автоматического извлечения терминологии используют статистический подход — это позволяет сделать их работу независимой от языка исследуемого корпуса. Такие системы работают с двумя корпусами: целевым, из которого необходимо извлечь терминологические единицы, и референционным — чаще всего национальным корпусом соответствующего языка, представляющим собой языковую систему в целом.
Для слов в целевом корпусе подсчитывается частота встречаемости, которая затем сравнивается с частотой встречаемости этого же слова в референционном корпусе. В результате сравнения частот употребления система присваивает единицам, отличающимся неожиданно высокой частотностью, статистическую меру ключевого слова (keyness score). Те слова, у которых keyness score оказывается выше определенного порога, записываются в кандидаты на присвоение им терминологического статуса.
На прикрепленной схеме показано распределение таких кандидатов в термины, отобранных нами на основе анализа шести учебников русского языка для 5 класса, включенных в федеральный перечень. Относительная близость/удаленность слов на карте дает представление о том, какие из них чаще/реже встречаются в непосредственной близости друг от друга.
Правая часть пространства заполнена собственно терминологической лексикой, а вот левая вызывает улыбку: конечно, это не термины. Это наиболее частотные слова из языковых примеров, используемых в учебниках. Анализ их по-своему познавателен. Они — яркое доказательство того, насколько невыносимо однообразна даже современная российская учебная литература с ее задавившей и выжегшей все остальное природоцентричностью.
Зачем и кому это нужно? Все эти аллегорические березки, эмоционально насыщенные лужицы, сентиментальные воробышки? Где нынешний пятиклассник и где скворечник? Смешно и скучно.