FinTechGeek(@FinTechGeek). Альтернативы А/В тестам Еще одно интересное выступление, которое удалось послушать на кэмпе

Альтернативы А/В тестам Еще одно интересное выступление, которое удалось послушать на кэмпе — Иван Еремеев из VK. Он рассказал о том, какие методы тестирования применять, когда нет возможности сделать полноценный А/В тест. А таких ситуаций в жизни на самом деле довольно много. Строго говоря, А/В тест зачастую либо невозможен либо не имеет смысла. Невозможными они бывают в силу многих причин. Чаще всего они связаны с тем, что нельзя достоверно разделить пользователей в каком-то конкретном месте их клиентского пути, с тем, что не хватает мощности выборки или с сетевыми эффектами — когда пользователи взаимодействуют между собой внутри продукта и тестовая группа будет влиять на тестовую. Этим особо страдают мессенджеры, социальные сети и разного рода UGC продукты. А не имеют смысла они тогда, когда стоимость проведения самого теста превышает потенциальную выгоду от тех знаний, которые мы ожидаем получить. Проблема в том, что А/В тесты в продукте — это дорого. Особенно если это приложение, а не веб. Сначала нужно создать соответствую инфраструктуру — настроить рандомайзер трафика, научиться ставить метки на контрольные и тестовые группы, считать доверительные интервалы и переключать экраны через feature toggling. И только после этого можно запускать конкретный тест. Здесь вам нужен будет дизайнер, разработчик, тестировщик, рлиз инженер. Возможно, бизнес аналитик и на выходе еще аналитик данных. Понятно, что какой-то функционал может на себе замыкать продакт. Но он тоже стоит денег для компании. А после теста нужно еще откатить решение, которое показало себя хуже и раскатить более успешное решени. По итогу один такой тест вполне может стоить компании 2-3 млн руб. Иван в своем выступлении предложил три альтернативных варианта тестирования. 1. Diffirences in diffirences. Суть метода в том, чтобы найти две схожие группы пользователей, которые показывают близкие тренды по интересующей нас метрике. Например, можно разделять людей по гео — брать жителей двух соседних регионов. И дальше сравнивать разницу между группами до и после проведения эксперимента. Эта разница с определенной степенью достоверности и покажешь эффект от эксперимента. 2. Causal impact. Здесь нужно найти ковариаты — это метрики, напрямую связанные с нашей целевой, но не затронутые вмешательством нашего теста. Дальше берем исторические данные по ним. Строим на их основе прогноз. Проводим тест и смотрим, насколько факт после теста отличается от прогноза. 3. Синтетический контроль. Здесь все то же, что и во втором варианте, только прогноз уже строим по основной метрике, а не по вспомогательной. Понятно, что достоверность таких тестов будет гораздо ниже, чем у классических А/В тестов. Но иногда они могут стать очень хорошей альтернативой и помогут принять решение.