Индустрия 4.0.(@the4industry). Такой алгоритм называется деревом принятия решений.Очевидно, что одного дерева недостаточно, чтобы о

Такой алгоритм называется деревом принятия решений.
Очевидно, что одного дерева недостаточно, чтобы описать всевозможные паттерны признаков наших клиентов, для этого используются композиции деревьев, или «лес». Композиции деревьев отлично справляются с задачей классификации табличных данных. Для нашего проекта мы использовали самую эффективную реализацию описанного выше метода — градиентный бустинг решающих деревьев. Основная идея этого метода в том, что каждое следующее дерево строится таким образом, чтобы исправить ошибки уже построенной композиции.
С методом мы определились, теперь необходимо понять, как будем измерять точность работы алгоритма.
Обычно из тысячи посетителей сайта клиентами становятся только десятки или даже единицы. И если мы разобьем наших посетителей на два класса — «не стал клиентом» и «стал клиентом», то наши классы будут несбалансированными. В первом будет 99% посетителей, во втором —1%.
Если алгоритм определит всех наших посетителей как первый класс («не стал клиентом»), то получим точность 99%, но никакой пользы от такого алгоритма не будет. Поэтому мы оценивали не точность по всей выборке, а только качество оценок принадлежности к классу 1. Для этого используется матрица ошибок: