tldr_tany(@tldr_tany). Merging Datasets Through Deep learninghttps://arxiv.org/pdf/1809.01604.pdf🕐 Когда

Merging Datasets Through Deep learning
https://arxiv.org/pdf/1809.01604.pdf
🕐 Когда - 5 сентября 2018

🍒 В чем понт
Очень большую и не самую приятную часть работы аналитика составляет работа по обьединению таблиц. Например, нужно проанализировать прибыль, которую приносят клиенты в зависимости от разных характеристик. Прибыль находится в одной таблице, описание клиента в 20 других, все колонки в таблицах называются по-разному, а данные представлены в разном формате. Знакомая ситуация? Авторы статьи придумали архитектуру, в которой нейронка по распределению признаков понимает, какие данные в колонках относятся к одной и той же сущности, даже если они записаны немного по-разному.

🔎 Подробности
Для того, чтобы понять, какие данные в колонках таблицы относятся к одним и тем же понятиям, представим их в виде векторов с помощью нейронной сети, на вход ей будем давать три вектора - понятие, это же перефразированное понятие и понятие, которое не является синонимом. Сетка будет одновременно учиться считать расстояние между синонимыми как можно ближе, а между разными словами - как можно дальше. Учиться и проверяться будем на Wikidata - датасет содержащий имена 213 тыс людей и 71 тыс компаний, а синонимами будем считать имена, которые в базе отделяются от оригинальных имен через ''also known as''. Также статье авторы исследовали разные виды лоссов, например, смотрели на improved loss, который рассматривает расстояние не только от положительного примера до оригинального, но и от негативного до положительного, пытаясь выравнять эти расстояния. Удалось достичь точности и полноты одновременно на уровне 80 процентов.

🖋 Что в итоге
Достаточно простые алгоритмически, но важные шаги в сторону автоматизации большой части аналитики.