SEER — это self-supervised нейросеть с миллиардом параметров от FAIR для задач компьютерного зрения. Предобученную на снимках из Instagram модель можно дообучать на своих задачах. Разработчики опубликовали библиотеку VISSL для обучения self-supervised моделей.
Исследователи из University of California и Honda Research Institute обучили робота складывать ткань. Алгоритм основывается на фреймворке для обучения визуальной динамики объектов на основе RGB изображений, — Visual Foresight. Такие роботы могут быть полезны в текстильной промышленности и хирургии.
#промо Как выполнять потоковую обработку больших данных? Сделайте первые шаги в Machine Learning на больших данных!
10 марта примите участие в демо-занятии от Кирилла Султанова, архитектора в области BigData. Что вы узнаете за 1,5 часа? - Потоковая обработка больших данных. - Подходы, архитектуры, фреймворки, сравнение, обзор и выбор. - Основные игроки и перспективные новички. - Реальные проекты, интересные связки и многое другое! Демо-занятие входит в программу онлайн-курса «Промышленный ML на больших данных».
Facebook AI опубликовали мультилингвальный датасет для обучения моделей распознавания речи. Multilingual LibriSpeech (MLS) содержит 50 тысяч часов аудио с речью людей на 8 языках: английском, немецком, испанском, итальянском, португальском и польском.
GraphGallery — это библиотека для обучения и тестирований графовых нейросетей. В GraphGallery реализованы состязательные атаки на графовые нейросети. Библиотека совместима с PyTorch, TensorFlow 2.x, Pytorch Geometric (PyG) и Deep Graph Library (DGL). Кроме того, в библиотеке доступны 17 датасетов с данными графов.
CSTR — это сверточная нейросеть, которая распознает текст на изображениях сцены. Предложенная модель решает задачу распознавания текста на изображении сцены как задачу мультиклассовой классификации изображения. По результатам экспериментов на 6 датасетах, CSTR выдает сравнимые с state-of-the-art подходами результаты.
Twitter запустили новый тип подключения к их API, — Academic Research. Такая подписка откроет исследователям доступ ко всем методам из второй версии API Twitter.
TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. По результатам экспериментов, модель выдает сравнимые с state-of-the-art GAN-моделями результаты.
Model search (MS) — это библиотека, которая использует алгоритмы автоматического поиска архитектуры ML-моделей. На данный момент MS работает только для задачи классификации как с табличными данными, так и с изображениями. Фреймворк базируется на байесовской оптимизации.
В FAIR RL-агента обучили управлять объектами по видеотьюториалам. Стандартные RL-алгоритмы обучаются задаче итеративно через обучение на ошибках. Предложенный алгоритм выучивает модель среды, наблюдает за поведением человека, а затем определяет функцию вознаграждения. Такой подход к обучению RL-агентов называется обратным обучением с подкреплением, основанным на модели среды (MBIRL).
#промо Хардкорный тест по Machine Learning. Ответьте на 10 вопросов и проверьте свои знания в Data Science. Сможете сдать — пройдёте на продвинутый курс для Machine Learning по специальной цене.
SAM — это нейросетевая модель, которая меняет возраст человека на изображении. Модель принимает на вход изображение лица человека и целевой возраст. На выходе нейросеть отдает сгенерированное изображение, где лицо целевой персоны изменено в соответствии с возрастным сдвигом. Модель умеет как омолаживать лица на изображениях, так и состаривать. В качестве архитектуры исследователи использовали генеративно-состязательную модель StyleGAN. По результатам экспериментов, SAM обходит state-of-the-art подходы.
Нейросеть от Facebook AI генерирует описания к фотографиям для пользователей с проблемами зрения. Система использует распознавание объектов, чтобы генерировать текстовые описания изображения. Это упрощает использование Facebook для пользователей с проблемами зрения. В качестве архитектуры модели использовали Faster R-CNN из Detectron. Итоговая нейросеть распознает 1200 классов объектов.
Pixellib — это библиотека для задачи сегментации объектов на изображениях и видеозаписях. Библиотека поддерживает два основных вида сегментации объектов: семантическую и instance сегментации.
MeInGame — это нейросетевая модель, которая генерирует персонажа в игре по одному изображению лица. Нейросеть предсказывает форму лица и его текстуру. Итоговое предсказание можно внедрить в большинство существующих видеоигр. По результатам экспериментов, модель обходит альтернативные подходы для генерации персонажей.
#промо Сегодня навыки СУБД — одно из обязательных требований работодателей к middle специалистам. Хотите уверенно себя чувствовать в работе с ними? Тогда ждем вас 18 февраля на демо-уроке «Проблемы миграции». За 2 часа вы с преподавателем Виктором Коробковым разберетесь в видах миграции, узнаете и решите основные проблемы, возникающие при миграции. ⚡️Демо-урок является частью онлайн-курса «Базы данных», предназначенного для разработчиков и администраторов, сталкивающихся в работе с СУБД. Вебинар познакомит вас с преподавателем и даст представление о сложности курса. 🙌Пройдите вступительный тест, чтобы зарегистрироваться на занятие: https://otus.pw/2lWK/