Обложка канала

Глазарий языка

5476 @glazslov

Все важное и неважное о русском языке и русском мире

Глазарий языка

6 лет назад
Открыть в
​​ПОБЕДИТЕЛЮ-УЧИТЕЛЮ ОТ ПОБЕЖДЕННОГО УЧЕНИКА

Провели мы тут одно небольшое исследование. Взяли сборник стихов А. С. Пушкина и сборник стихов В. А. Жуковского. Удалили из каждой строчки все нерусские и служебные слова, лемматизировали и заставили так называемый наивный байесовский классификатор определить, какая стихотворная строка кем написана.

Наивный байесовский классификатор считает совместную вероятность определенного количества слов встретиться в одном стихе, исходя из частоты употребления каждого из этих слов каждым автором и рассматривая каждое слово как независимую единицу (в чем и проявляется наивность).

На основе этих подсчетов алгоритм атрибутирует Пушкину, например, строчки «В поместье мирное меж Пиндом и Цитерой» (верно) и «Вот и другое в ушах загремело» (неверно), а Жуковскому — строчки «Там часто, в горести беспечной, молчаливой» (верно) и «Вкруг грозного столпа трикраты обвились» (неверно).

В целом результаты модели оказались так себе: 67 верно опознанных стихов из 100. Гораздо интереснее матрица ошибок — таблица, которая позволяет визуализировать эффективность классификации путем сравнения прогнозируемого значения (горизонтальная ось) с фактическим (вертикальная ось). Эта матрица прикреплена к посту. Числа, разумеется, отображают не все стихи, которые были в нашем распоряжении, а лишь те, на которых тестировалась предварительно обученная модель.

Так вот, сравнение результатов классификации стихов Пушкина и Жуковского поражает резкой несоразмерностью: у Пушкина правильно опознано лишь 55 % строк, тогда как у Жуковского — 81 %. Иначе говоря, как обладатель уникального и хорошо узнаваемого поэтического словаря Жуковский гораздо выше Пушкина.

Конечно, это лишь подтверждает известное представление о Пушкине как о некоем синтезирующем начале русской поэзии, впитавшем в себя в том числе и лексикон Жуковского. Думаем, что результаты сравнения его с другими поэтами-современниками будут похожи.

Но важно понимать: создание русского литературного языка, которое часто ставят Пушкину в заслугу, — стало возможным только благодаря утрате им индивидуального голоса. Пушкин, возможно, наиболее безликий из русских поэтов.

Задать вопрос @UchenyjBot