NeuroHive - Нейронные сети, страница 14, все посты канала

NeuroHive - Нейронные сети

MichiGAN — это генеративно-состязательная нейросеть, которая редактирует прическу на изображении. На основе портретного снимка модель позволяет модифицировать прическу персоны по нескольким референсным снимкам. Модель дает возможность редактировать отдельное такие атрибуты прически, как внешний вид, структура и форма. При этом задний фон изображения остается целым. Кроме того, модель может модифицировать несколько атрибутов прически совместно. По результатам экспериментов, MichiGAN обходит альтернативные подходы по степени интерактивности редактирования и по качеству итоговых снимков.

NeuroHive - Нейронные сети

NYU Depth V2 — это датасет для сегментации объектов на изображениях интерьера. Датасет состоит из видеопоследовательностей из разных сцен интерьера, которые были записаны в RGB и с помощью камер глубины от Microsoft Kinect.

NeuroHive - Нейронные сети

Исследователи из University of Oxford и University of Hong Kong предлагают легковесную генеративно-состязательную сеть для редактирования изображений по текстовому описанию. Модель принимает на вход изображение и текстовое описание, в соответствии с которым необходимо модифицировать изображение. На выходе модель отдает отредактированное изображение. Нейросеть выдает сравнимые с state-of-the-art моделями результаты при меньшем количестве параметров.

NeuroHive - Нейронные сети

Objectron — это датасет для 3D распознавания объектов на видео. Датасет содержит 15 тысяч коротких видеоклипов, каждый из которых содержит аннотацию 3D границ объектов. Данные в датасете содержат как реальные клипы, так и синтетические, сгенерированные на основе реальных.

NeuroHive - Нейронные сети

GACN — это нейросетевая модель, которая фокусирует объекты на изображении. Модель принимает на вход набор изображений одной сцены. На их основе нейросеть генерирует итоговое изображение, на котором все объекты находятся в фокусе.

NeuroHive - Нейронные сети

Torch-Points3D — это опенсорсный модульный фреймворк для обучения нейросетевых моделей на 3D облаках точек. Torch-Points3D имеет функционал для решения таких задач, как классификация, сегментация, распознавание объектов, регистрация облаков точек, заполнение и другие. Доступные архитектуры нейросетевых моделей включают в себя PointNet, PointNet++, PointCNN, RSConv, VoteNet и PPNet. Среди доступных датасетов — Scannet, S3DIS, Shapenet, SemanticKitty, 3DMatch, ModelNet и Kitty Odometry.

NeuroHive - Нейронные сети

Исследователи из Amazon опубликовали нейросетевую модель, которая распознает действия на видеозаписях трансляций в реальном времени. Нейросеть учитывает временные лаги трансляций при выдаче предсказаний. По результатам экспериментов, нейросеть обходит state-of-the-art решения для онлайн распознавания действий на видео.

NeuroHive - Нейронные сети

@selectelnews выпустил бесплатный Data Science Docker Container с фреймворками и инструментами ML/DL.

Без навыков Devops с его помощью можно развернуть рабочую среду и обучать нейросети, экспериментировать с данными и запускать проекты машинного обучения.

Из явных плюсов:

— Выгодная оплата — платить нужно только за потребляемые ресурсы в облаке или кластере Managed Kubernetes. Если запускаешь контейнер на своем компьютере — платить вообще не нужно.

— Понятная документация. @selectelnews снял двухминутную инструкцию со всеми этапами запуска контейнера и описал процесс в базе знаний. Можно ознакомиться с ней по ссылке.

Запустить контейнер.

NeuroHive - Нейронные сети

FrankMocap — это система для распознавания движений тела и рук в 3D. Система позволяет в реальном времени оценивать движения рук и тела человека в 3D на видеозаписи с одного ракурса. Модели из FrankMocap выдают сравнимые с state-of-the-art подходами результаты.

NeuroHive - Нейронные сети

Cone of Silence — это нейросетевая модель, которая разделяет спикеров на аудиозаписи, записанной с нескольких микрофонов. Модель выдает аудиодорожку с речью спикера и предсказывает расположение спикера относительно микрофонов. Нейросеть справляется с аудиозаписями, где спикеры говорят одновременно и перебивают друг друга.

NeuroHive - Нейронные сети

Room-Across-Room (RxR) — это датасет для навигации в пространстве с помощью текстовых команд. Текстовые команды в RxR представлены на трех языках: английском, хинди и телугу. Кроме того, пути в датасете длиннее, чем в альтернативных наборах данных. Каждое слово в текстовой инструкции аннотировано по времени с виртуальными позами размечающих и валидаторов.

NeuroHive - Нейронные сети

Исследователи из CISPA и Cyber-Defence Campus проверили автоэнкодер-модели и GAN-модели на устойчивость к бэкдор атакам. Бэкдор атака — это атака на этапе обучения модели, когда злоумышленник помещает лазейку в обучающую выборку модели, которая может быть активирована специальным триггером на инференсе. Исследователи обучили модели, для которых можно контролировать сгенерированные изображения через скрытые триггеры в входных данных. Атакованная GAN достигает 4.4, 8.7 и 5.5 по метрике Frechet Inception Distance (FID). Это на 0.8% хуже, на 1.25% и на 2.2% лучше, чем результаты стандартной GAN. Сравнивали на датасетах MNIST, CIFAR-10 и CelebA соответственно.

NeuroHive - Нейронные сети

GRF — это нейронная функция для представления и рендеринга 3D сцен любой сложности на основе 2D изображений. По количественным и качественным оценкам, GRF обходит state-of-the-art методы.

NeuroHive - Нейронные сети

mT5 — предобученная мультилингвальная Transformer-модель. mT5 является расширением модели Text-to-Text Transfer Transformer (T5) от Google AI. Модель обучали на корпусе веб-страниц из Common Crawl на 101 языках. По результатам экспериментов, нейросеть обходит существующие мультилингвальные Transformer-модели на задачах классификации, структурного прогнозирования и вопросно-ответных систем.

NeuroHive - Нейронные сети

В Google Brain обучили Transformer-модель для задачи распознавания изображений. На датасетах ImageNet, CIFAR-100 и VTAB ViT (Vision Transformer) выдает результаты, сравнимые с state-of-the-art сверточными архитектурами. При этом ViT требует меньшего количества вычислительных ресурсов для обучения.

NeuroHive - Нейронные сети

Imaginaire — это библиотека на PyTorch с генеративными моделями для задач генерации изображений и видеозаписей. Библиотеку разрабатывают исследователи из NVIDIA. Imaginaire содержит оптимизированные имплементации state-of-the-art моделей, основанных на GAN.

NeuroHive - Нейронные сети

Jiant — это библиотека для обучения моделей понимания естественного языка (NLU). Библиотека включает в себя функционал для мультизадачного обучения и transfer learning. Jiant поддерживает такие задачи обработки естественного языка, как GLUE, SuperGLUE и XTREME. Среди доступных архитектур в библиотеке — BERT, RoBERTa, ALBERT, ELECTRA и XLM-R. Библиотека имеет модульный дизайн и легко адаптируется под кастомные эксперименты. Jiant разрабатывают исследователи из NYU.

NeuroHive - Нейронные сети

Машинное обучение в геймдеве используется для задач генерации уровней, обучения агентов играть в видеоигры, дизайна видеоигр и тестирования игр. Мы сделали обзор последних исследований о применении машинного обучения для разработки видеоигр.

NeuroHive - Нейронные сети. Страница 14

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

Реклама

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

Реклама

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети

NeuroHive - Нейронные сети