Глазарий языка(@glazslov). ТРЕТЬЯ НЕ ЛИШНЯЯДовелось тут прочитать размышления одного человека на тему «странной» статистики сме

ТРЕТЬЯ НЕ ЛИШНЯЯ

Довелось тут прочитать размышления одного человека на тему «странной» статистики смертности от коронавируса в Москве. (Дело было несколько дней назад; может, сейчас она уже перестала быть «странной», сути это в любом случае не меняет.)

Претензии мыслителя, к которому как нельзя лучше подходит определение «широко известный в узких кругах», вызвал вот какой факт: с момента начала второй волны число-де умерших каждый день находится в пределах от 71 до 77, при этом за все время нет ни одной пары соседних дней, когда бы цифры совпадали.

Мыслитель многозначительно сообщил общественности, что вероятность такого совпадения составляет менее 1 процента, — и благодарная общественность поддержала его смеющимися и плачущими лайками.

Этот случай показался нам любопытным. Во-первых, мы не очень понимаем, как там высчитывал мыслитель свой сенсационный 1 процент и почему он не потрудился сообщить об этом публике. Дело в том, что у набора чисел как такового не может быть никакой вероятности. Вероятность может быть у получения подобного набора чисел в рамках какой-то модели генерации данных, при условии того, что некая гипотеза верна. Например, если мы возьмем номера домов на какой угодно улице, то соседние числа там тоже не будут повторяться — разве это удивительно? Повторимся, нам, к сожалению, осталось совершенно неясно, в чем именно заключалась гипотеза мыслителя.

Ну да бог с ним, предположим, что мыслитель исходил из модели нормального распределения. При этой модели, действительно, набор цифр, в котором — при соответствующей длине и соответствующих пределах варьирования — соседние элементы бы не повторялись, можно получить лишь с исчезающе малой вероятностью 0.0002.

Предположим, что альтернативная гипотеза мыслителя состояла в том, будто власти Москвы используют для генерации данных простейший компьютерный алгоритм (на что как будто указывают всякие вербальные интеллигентские ужимки и подмигивания). В случае правдивости этой гипотезы вероятность получения такого набора цифр равняется, разумеется, единице: алгоритм ошибок не делает.

Это, однако, еще не конец истории. Мы не можем сравнивать 0.0002 и 1 напрямую. Чтобы оценить, укрепляют ли наблюдаемые данные веру в одну из гипотез, нам нужно применить байесовское правило и умножить каждую из этих вероятностей на априорную вероятность самих гипотез, после чего нормализовать.

Допустим, мы проявляем чудеса патриотизма и изначально отводим лишь 0.001 на то, что московские власти используют генератор случайных чисел в таком чувствительном и грустном деле. Априорная же вероятность нормального распределения пусть будет очень высока — 0.8.

После применения байесовского правила апостериорные вероятности обеих гипотез выглядят так: нормальное распределение — 0.14, генератор случайных чисел — 0.86.

Выходит, мыслитель был прав? Нет, не выходит.

Здесь мы наконец добрались до самого интересного. Грандиозный недостаток всей предшествующей аргументации заключается в том, что мы произвольно ограничили круг возможных гипотез всего лишь двумя. Между тем это ни из чего не следует и ничем не обсновывается. Объясняющих реальность гипотез может быть сколько угодно — и если мы додумались только до двух, это проблема наших мозгов, а не реальности.

Вообразим, что мы допускаем на секунду существование еще одной, третьей гипотезы. Мы ничего не знаем про нее, но предполагаем, что, в случае если она верна, вероятность получения наблюдаемых данных будет не меньше, чем в случае если верна гипотеза о генераторе случайных чисел. Что касается априорной вероятности, скромно отведем на эту третью гипотезу то, что осталось от первых двух (1-0.8-0.001 = 0.199).

Повторим теперь всю процедуру с байесовским правилом и вычислением апостериорных вероятностей для всех трех гипотез: нормальное распределение — 0.001, генератор случайных чисел — 0.004, третья гипотеза — 0.995.

Следовательно, единственное, о чем говорят полученные цифры, — это о том, что оба наших первоначальных объяснения — говно, а истина тут и не ночевала.

Задать вопрос @UchenyjBot