Такой алгоритм называется деревом принятия решений. Очевидно, что одного дерева недостаточно, чтобы описать всевозможные паттерны признаков наших клиентов, для этого используются композиции деревьев, или «лес». Композиции деревьев отлично справляются с задачей классификации табличных данных. Для нашего проекта мы использовали самую эффективную реализацию описанного выше метода — градиентный бустинг решающих деревьев. Основная идея этого метода в том, что каждое следующее дерево строится таким образом, чтобы исправить ошибки уже построенной композиции. С методом мы определились, теперь необходимо понять, как будем измерять точность работы алгоритма. Обычно из тысячи посетителей сайта клиентами становятся только десятки или даже единицы. И если мы разобьем наших посетителей на два класса — «не стал клиентом» и «стал клиентом», то наши классы будут несбалансированными. В первом будет 99% посетителей, во втором —1%. Если алгоритм определит всех наших посетителей как первый класс («не стал клиентом»), то получим точность 99%, но никакой пользы от такого алгоритма не будет. Поэтому мы оценивали не точность по всей выборке, а только качество оценок принадлежности к классу 1. Для этого используется матрица ошибок: