Platforma и HFLabs провелипервый безопасный метчинг данных
Разработчик решений для бизнеса на основе big data Platforma совместно с HFLabs впервые провели тестирование технологии безопасного обмена данными. Данный алгоритм преобразования баз данных помогает находить пересечения целевой аудитории без использования персональных данных. Технология призвана дать серьезный импульс работе с клиентами в будущем.
С помощью метчинга удалось объединить клиентские базы (почти 250 млн. записей) ВТБ и Ростелекома. Задача была выполнена с помощью синтетических идентификаторов — UUID, которые не являются персональными данными и состоят из случайного набора букв и цифр определенной длины.
Как это сработало?
При подготовке к работе данные хэшируются (то есть преобразовывается массив входных данных) в два этапа с помощью сессионного секрета, который доступен только владельцам данных. Затем данные передаются в федеративный хаб – центр IT-архитектуры. Задача хаба - сравнить хеши и найти пересечения в клиентских базах.
Основная задача состояла в том, чтобы объединить клиентские данные разных систем. Поскольку даже единый бизнес часто поддерживает внутри себя различные IT-системы (CRM, биллинговые, кредитные портфели и т.д.), информация там хранится в разных форматах с различными наборами полей и характеристик. Например, в одной системе имя записано как «Наталья», а в другой – «Наталия». Совместное решение HFLabs и Platforma учитывает эту особенность, поэтому сначала происходит поиск схожих данных с помощью механизмов дедупликации и алгоритмов, учитывающих синонимы, опечатки, взаимозаменяемые слова, устаревшие наименования населенных пунктов.
Интересно, что первый этап хеширования может занимать около двух дней. Затем метчинг баз двух компаний, включая второй этап хеширования, может потребовать несколько часов.