Исследователи из Hebrew University of Jerusalem обучили нейросеть, которая редактирует содержание изображение. Модель принимает на вход оригинальное изображение и карту сегментации отредактированного изображения. На выходе нейросеть выдает отредактированное в соответствии с картой сегментации оригинальное изображение. По результатам экспериментов, предложенная модель обходит pix2pixHD в фотореалистичности генерируемых изображений.
Auto-Sklearn — это инструмент для автоматизации машинного обучения. Библиотека основана на существующей ML-библиотеке scikit-learn. Пайплайн может состоять из нескольких шагов предобработки данных, одного шага предобработки признаков и обучения модели с помощью методов градиентного бустинга. В текущем релизе библиотеки поиск производится по 153 гиперпараметрам.
EagleEye — это метод оценки подсетей для алгоритмов сжатия размера обученных нейросетей. С помощью EagleEye можно отобрать оптимальную структуру подсети с минимальной потерей в точности. При прунинге мини-версии MobileNet V1 предложенный подход находит подсеть на 50% меньше размером и с точностью предсказаний 70.9% на ImageNet.
Исследователи из Facebook Reality Labs предложили подход для более точного трекинга лица и взгляда. Внутри системы встроена нейросеть, которая совместно учится моделировать лицо пользователя и его взгляд в 3D. Одним из применений такой модели являются виртуальные трансляции.
30 июля стартуют онлайн-курсы по математике для data science от OTUS! Математика — пропуск в мир перспективных IT-специальностей. Вы давно знаете это, но цепенеете перед первым шагом. Естественный страх начать и не осилить новую цель, потратив деньги и силы. Пора преодолеть его!
📍Онлайн-курсы высшей математики начинаются совсем скоро: базовый с 30 июля, продвинутый с 31 июля. Не откладывая в долгий ящик, начинаем воплощать план по прокачке ваших навыков.
👤 Автор и ведущий занятий — Пётр Лукьянченко, преподаватель ВШЭ и ранее Team Lead Analytics в Lamoda. Все уроки построены так, чтобы дать вам сильную теорию и практические навыки, которые требуются на должности Data Scientist. В конце курса у вас будет четкое представление, что делать с приобретенными знаниями и как на их основе строить карьеру.
Оплачивать курс можно в рассрочку по месяцам, а значит, не нужно ждать и копить — начинайте вкладывать в свое будущее уже сейчас!
👉Пройти вступительный тест и записаться на Базовый курс математики (старт 30 июля): https://otus.pw/2qjJ/ Продвинутый курс математики (старт 31 июля): https://otus.pw/dQJd/
Google AI опубликовали нейросеть, которая извлекает структурированную информацию из шаблонных документов. Эксперименты на корпусах счетов и чеков показывают, что нейросеть масштабируется на новые типы документов, которых не было в обучающей выборке.
Исследователи из Salesforce обучили языковую модель восстанавливать структуру белка. В качестве архитектуры использовали языковую модель BERT. Помимо модели, разработчики публикую инструмент для трехмерной визуализации механизма внимания из обученной модели.
DeepFaceDrawing — это нейросетевая модель, которая генерирует изображение человека на основе скетча. Разработкой сети занимались исследователи из University of Hong Kong. Нейросеть генерирует более реалистичные изображения в сравнении с альтернативными подходами: Pix2pix, Lines2FacePhoto, Pix2pixHD, iSketchNFill.
TaBERT — это нейросеть, которая переводит запросы данных с естественного языка на SQL. В основе модели лежит трансформер-архитектура BERT, которая является state-of-the-art подходом в обработке естественного языка.
Disney Research опубликовали нейросетевой алгоритм для автоматической замены лиц на изображениях и видео. Это первый метод, который способен рендерить фотореалистичные и консистентные по времени изображения в высоком разрешении. Модель обучается без учителя.
Почти никто не объясняет, что и кто стоит за технологиями, которые меняют нашу жизнь, и что они меняют в России. В телеграм-канале «nti2035media» по косточкам разбирают буквально все (от аэротакси до сортировки мусора) каждый день вместе с экспертами Национальной технологической инициативы. Присоединяйтесь и узнавайте, что на самом деле происходит с технологическим развитием.
Бонусом идут крутые мероприятия и конкурсы для тех, кому не все равно.
Исследователи из Amazon опубликовали метод для генерации реалистичных синтетических снимков с группой людей. Такие данные используются при обучении моделей компьютерного зрения, в случае если реальных размеченных данных недостаточно. При этом подход позволяет полностью контролировать содержание изображений.
FAIR опубликовали нейросетевой фреймворк для распознавания содержимого видеозаписи. Generalized Data Transformations обучается без размеченных данных. Исследователи проверяли модель на датасетах HMDB-51, UCF-101, DCASE2014, ESC-50 и VGG-Sound. На датасетах HMDB и UCF нейросеть обходит прошлые подходы с точностью 72.8% и 95.2% соответственно.
EPIC-Kitchens — это набор видеозаписей, снятых от первого лица, где люди выполняют действия на кухне. Визуальный ряд сопровождается нарративом от актора, в котором озвучивается каждое действие. Всего данные состоят из 100 часов видеоматериала. Датасет собирали исследователи из University of Bristol и University of Catania.
Дизайн-студия Артемия Лебедева разработала нейросеть для генерации логотипов около года назад. Модель уже использовали в более чем 20 коммерческих проектах студии. Нейросеть способна выполнять комплексные креативные задачи, как генерация оригинальных логотипов и создание айдентики брендов. Модель учитывает данные о компании при генерации логотипов и айдентики.
Sequencer — это алгоритм, который автоматически извлекает основные закономерности в данных. Алгоритм использует четыре разные метрики: евклидово расстояние, KL-дивергенцию, метрику Васерштейна и энергетическое расстояние. Sequencer масштабируется на любой датасет и обходит tSNE и UMAP в поиске одномерных трендов в данных.
PULSE — это нейросетевая модель, которая генерирует изображение в высоком разрешении из изображения в низком разрешении. Предложенная модель обучается self-supervised и генерирует изображения в беспрецедентно высоком разрешении. Исследователи используют архитектуру StyleGAN.
В FAIR разработали нейросеть, которая добавляет человека на фотографию. Модель принимает на вход целевое изображение и маску человека, которого необходимо добавить на целевое изображение. На выходе модель отдает модифицированную целевую фотографию с добавленным человеком. По результатам экспериментов, модель генерирует правдоподобные изображения в высоком разрешении.