Main ML_KZ(@main_ds_kz). Научно-технический вебинар Доброкачественное переобучение в моделях, дополненных поиском по хранилищ

Научно-технический вебинар Доброкачественное переобучение в моделях, дополненных поиском по хранилищу 8 ноября 13:00 MCK Спикер: Женисбек Ассылбеков, Назарбаев Университет Доклад посвящён исследовательским вопросам в области теории глубокого обучения и возможно будет не совсем интересно тем, кто интересуется прикладными задачами. ——————————————————————————————— Теория длинного хвоста Фельдмана (STOC 2020) утверждает, что запоминание редких/атипичных примеров неизбежно при обучении на естественных данных. Несмотря на то, что современные глубокие нейронные сети имеют возможность запоминать (почти) всю обучающую выборку, при обучении с SGD они этого не делают. Напротив, они доброкачественно переобучаются, то есть делают точные прогнозы на новых данных, несмотря на идеальную подгонку к обучающей выборке. Грубо говоря, все это происходит из-за неявной предвзятости к простоте: SGD предпочитает более простые и надежные модели и использует возможности нейронной сети для запоминания, чтобы подгоняться к нетипичным/редким примерам только в случае необходимости. В то же время специалисты по машинному обучению (особенно в области обработки естественного языка) придумали, как использовать эту возможность для более эффективного обучения: модели, дополненные поиском по хранилищу данных (kNN-LM, RETRO) явно запоминают (часть) обучающей выборки в хранилище и, таким образом, пытаются (частично) снять нагрузку запоминания с нейронной сети. Насколько мне известно, в настоящее время нет теоретического анализа доброкачественного переобучения в таких моделях. В своем выступлении я предложу несколько возможных исследовательских вопросов, касающихся доброкачественной переобучения в моделях, снабженных поиском по хранилищу, для дальнейшего обсуждения с участниками вебинара. Регистрация ntrlab.zoom.us/webinar…lMxhqpnw