Функция рекомендации новых контактов в LinkedIn используется для расширения личной сети связей пользователей. Блок People You May Know также выдает рекомендации по хэштегам, компаниям, группам, рассылкам и мероприятиям. Когда пользователи совершают переходят по рекомендации, к графу их социальной сети добавляются связи. В личном графе есть три типа связей: коннект (когда пользователь добавлять другого пользователя в свою сеть), наблюдение (когда пользователь следит за другим пользователем) и подписка (когда пользователь подписан на обновления компании, хэштега или мероприятия).
Если вы начинающий Data Engineer, для дальнейшего роста вам понадобится овладеть инструментами работы с Big Data. Начните осваивать их уже 16 октября на демо-занятии «Написание эффективных пользовательских функций в Spark». Вместе с Егором Матешуком вы рассмотрите пользовательские функции (UDF), различные способы их создания в Scala и Python, а также обсудите их производительность.
Демо-занятие является частью онлайн-курса «Экосистема Hadoop, Spark, Hive». Для вас это возможность попробовать курс, познакомиться с преподавателем и получить ценные навыки. Для регистрации пройдите вступительный https://otus.pw/Wlxr/
Dynabench — это платформа для динамического сбора данных и тестирования моделей. Для сбора данных платформа задействует ресурсы ручной и автоматической разметки одновременно. В Dynabench для оценки моделей машинного обучения используется новая процедура, — состязательный сбор данных. Метод измеряет, как просто обмануть модель человеку. Это является более стабильным индикатором качества модели, чем текущие методы оценки.
Nvidia опубликовали обновленную реализацию StyleGAN2. Обновленная StyleGAN2 выдает результаты, сравнимые с оригинальной StyleGAN2. При этом модель не требует более пары тысяч изображений для обучения, что на порядок меньше требуемого размера обучающей выборки для оригинальной StyleGAN2. Обучение модели быстрее в ~1.6x раз, инференс быстрее в ~1.3x раз, потребление GPU памяти в ~1.5x ниже.
Исследователи из Baidu предложили нейросетевую модель для задачи распознавания символов на изображении (OCR). Предложенный фреймворк состоит из трёх частей: детектирование границ текста, исправление наклона текста и распознавание текста.
Хотите узнать какие подводные камни в работе с современной BigData? 12 октября пройдет демо-урок «Современные большие данные, анализ и оптимизация производительности распределенных приложений» Кирилл Султанов, расскажет, про подводные камни в работе с современной BigData: кастомизация, распределенное профилирование, контрибьют в open source. Все, что нужно - чтобы выйти в продакшн! Демо-урок является частью онлайн-курса «Промышленный ML на больших данных». Используйте эту возможность, чтобы получить ценные знания, оценить качество знаний и формат обучения. Для регистрации пройдите вступительный тест https://otus.pw/1BrX/
В Microsoft разработали нейросеть, которая восстанавливает старые поврежденные снимки. Предложенная модель использует два вариационных автоэнкодера (VAEs). Модель учится восстанавливать фотографии на основе реальных и синтетических снимков.
KILT (Knowledge Intensive Language Tasks) — это унифицированный бенчмарк для обучения моделей, которые используют знания о мире для предсказаний. KILT объединяет в себе 11 публичных датасетов, которые охватывают 5 типов задач: проверка фактов, универсальная вопросно-ответная система (open-domain question answering), заполнение пробелов, поиск связей между сущностями и генерация диалогов.
Как вывести ML-модели в промышленную среду? Для большинства Data Scientist это сложная задача. 19 октября пройдет демо-урок «Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций» Дмитрий Бугайченко, управляющий директор в Сбербанке, расскажет, как Data Science выходит из ноутбука Data Scientist, проходит через аналитическую платформу и среду исполнения в пром, и в итоге попадает к пользователям. Вы узнаете, какие трюки помогают масштабировать алгоритм, какие компоненты и технические решения позволяют вывести ML в промышленную среду, какие паттерны помогают ML работать в режиме онлайн и многое другое. Демо-урок является частью онлайн-курса «Промышленный ML на больших данных». Используйте эту возможность, чтобы получить ценные знания, оценить качество знаний и формат обучения. Для регистрации пройдите вступительный тест https://otus.pw/eVG9/
OTDD — это подход для оценки расстояния между датасетами для задач классификации. OTDD основывается на транспортной задаче. Подход позволяет оценить близость датасетов, даже если наборы классов в двух датасетах разнятся. OTDD может применяться для задач тюнинга предобученной модели и ассистирования в аугментации данных.
3DDFA — это нейросеть, которая размечает лицо человека в 3D по видеозаписи. На инференсе 3DDFA обрабатывает изображение за 0.27 миллисекунд на GeForce GTX TITAN X.
CowMask — это метод аугментации, который основан на маскировании. Метод позволяет обучать более устойчивые self-supervised модели. Модель с CowMask выдает state-of-the-art результаты на датасете ImageNet с использованием 10% размеченных данных при обучении.
MEAL V2 — это способ улучшить точность классификации стандартной ResNet-50 до 80%+ на датасете ImageNet без изменений в архитектуре. MEAL V2 основывается на MEAL, методе дистилляции знаний через дискриминаторы.
Diffbot собирают самый крупный граф знаний интернета. Система получает html-код веб-страницы, анализирует текстовые и визуальные данные и дополняет существующий граф. Граф перестраивается каждые 5 дней. Каждый месяц к графу добавляется 150 миллионов новых ассоциаций формата субъект-действие-объект.
LaSOT — это масштабный датасет для обучения и оценки моделей трекинга объектов. Датасет содержит 1.5 тысяч видеоклипов с объектами 85 разных классов. Всего в датасете более 3.87 миллионов кадров. Каждый клип содержит разметку для одного объекта. Границы объекта на кадрах размечали вручную.
Разметка данных — один из наиболее сложных и трудозатратных процессов в машинном обучении. Зачастую разметкой приходится заниматься вручную. И тут на помощь могут прийти такие платформы как Яндекс.Толока, которая позволяет автоматизировать этот процесс.
Сейчас на платформе трудятся более 8 млн исполнителей, которые выполняют около 13 млн заданий в день. Но как при подобной автоматизации процессов не пожертвовать качеством выполненных работ?
В этом помогают правила, которых придерживается система проверки и контроля качества произведенных работ. Более подробную информацию вы можете почерпнуть из статьи. https://clck.ru/R2wjE
Исследователи из MPI Informatik и University College London обучили нейросеть, которая меняет угол обзора сцены на изображении. Нейросеть учитывает смену освещения. На инференсе модель принимает на вход набор координат, которые описывают параметры угла обзора, времени и освещения. На выходе модель в реальном времени генерирует 2D изображение с заданными координатами.
Исследователи использовали состязательные атаки с патчами для изображений с воздуха, чтобы скрыть самолёты от нейросетевых детекторов. Патч может предотвратить автоматическое распознавание объекта, даже если закрывает малую часть объекта на изображении. Исследователи протестировали разные конфигурации патчей, меняя размер, расположение, количество и яркость. По результатам экспериментов, состязательная атака с патчами по качеству скрытия объекта на изображении конкурирует с традиционными методами.