Исследователи из DeepMind обучили графовую нейросеть, которая предсказывает трафик на дорогах. Модель используется в Google Картах и позволяет оценить время прибытия из одного места в другое. С помощью модели качество предсказания трафика улучшили на более чем 50% для таких городов, как Берлин, Джакарта, Сан-Паулу, Сидней, Токио и Вашингтон.
Monster Mash — это фреймворк для 3D-анимации персонажа на основе скетча. На вход системе подаётся 2D скетч объекта. На выходе фреймворк выдаёт готовую к использованию 3D сетку. Преимущество метода по сравнению с предыдущими — отсутствие необходимости генерировать сетку по частям. Для этого в Monster Mash используется модель деформации ARAP-L. Для менее опытных пользователей Monster Mash упрощает процесс моделирования и анимации в 3D.
GPT-f — это языковая модель, которую обучили генерировать доказательства теорем. В качестве архитектуры использовали transformer-модель GPT-3. GPT-f призван ассистировать математикам при доказательстве теорем. Модель работает для формального языка для доказательства теорем Metamath. По результатам экспериментов, GPT-f находила новые короткие доказательства, которые приняли в библиотеку Metamath.
Products-10K — это широкомасштабный датасет для распознавания продуктов. Датасет состоит из изображений 10 тысяч категорий потребительских товаров. Данные собирали, чтобы улучшить качество моделей для распознавания товаров на складских полках.
Wav2Lip — это нейросеть, которая адаптирует видео с говорящим лицо под аудиозапись речи. Предложенная нейросеть обходит state-of-the-art подходы на задаче синхронизации губ человека на видеозаписи с аудидорожкой.
DoWhy — это библиотека для причинного вывода от Microsoft. В DoWhy распознавание каузального эффекта и его оценка разделяются на отдельные части. Процесс моделирования причинного вывода состоит из четырех шагов: моделирование, распознавание, оценка и опровержение.
Hivemind — это библиотека для децентрализованного обучения крупных нейросетей. Функционал библиотеки обеспечивает распределённое обучение моделей на оборудовании пользователей. На данный момент библиотека на стадии пре-альфа.
Atlas — это нейросетевая модель, которая реконструирует 3D сцену на изображении. Нейросеть напрямую восстанавливает 3D модель сцены из RGB изображений. Разработкой модели занимались исследователи из Magic Leap.
Chess Transformer — это языковая модель, которую обучили игре в шахматы. Нейросеть предсказывает следующий ход на основе истории ходов в игре. Transformer-модель обучалась на 2.8 миллионах шахматных партий. В качестве архитектуры трансформера использовали GPT-2 с 774 миллионами параметров.
Настоящее Машинное обучение в компаниях разительно отличается от идеалистичных примеров в учебниках. Освойте актуальные приемы под руководством дата саентистов, которые каждый день работают с данными. 31 августа стартует онлайн-курс «Machine Learning. Professional» — и это шанс поработать с реальными датасетами, перенять опыт экспертов и получить необходимые для карьеры навыки. К концу обучения у вас будет сильное портфолио, которое поможет вам на собеседованиях. Успейте оставить заявку, чтобы занять место со скидкой https://otus.pw/52DK/
PixelSSL — это библиотека для попиксельных задач компьютерного зрения. Библиотека облегчает обучение моделей с частичным привлечением учителя (semi-supervised). На данный момент PixelSSL поддерживает только задачу сегментации объектов. В библиотеки доступны реализации 5 моделей: SupOnly, MT, S4L, AdvSSL и GCT.
Исследователи из Rutgers University предложили архитектуру сети, которая предсказывает направленные границы объектов на изображениях с воздуха. Модель выдает сравнимые с state-of-the-art подходами результаты.
WebDataset — это открытая библиотека для PyTorch, которая упрощает работу с крупными датасетами для машинного обучения. В WebDataset датасет представляется в формате POSIX tar архивов. Архивы напрямую используются для обучения модели. При этом архив не нужно распаковывать или хранить локально.
Data Labeling или разметка данных — это трудоёмкий процесс, на фундаменте которого строится всё машинное обучение. В большинстве случаев разметкой приходится заниматься вручную. Лаборатория разметки — инструмент от Яндекса, которая автоматизирует этот процесс. На данный момент в Лаборатории можно: классифицировать изображения, классифицировать текст и распознавать объекты на изображениях. Размеченные данные подойдут как эталонные для машинного обучения, генерации и модерации контента и других бизнес-задач.
Лаборатория разметки работает на базе Яндекс.Толоки, краудсорсинговой платформы, на которой пользователи ежедневно выполняют более 13 миллионов задач по обработке данных. Лаборатория Яндекс.Толоки позволяет быстро создать свою задачу: система сама настроит проект и подберёт исполнителей. Разместить свою задачу можно здесь, минимальный объём задачи — 500 элементов, минимальный бюджет 12 000 рублей.
Исследователи в FAIR проанализировали топ-3 популярных open domain QA датасета на наличие пересечений. В 60-70% ответы на вопросы в тестовой выборке были в обучающей выборке. 30% тестовых вопросов имели дубликат в обучающей выборке. Задача open domain вопросно-ответных систем предполагает, что модель умеет отвечать на новые вопросы с помощью знаний, выученных во время обучения. Кроме того, модель должна уметь генерализовать имеющиеся знания для ответа на новые вопросы.
Исследователи из Ubisoft предложили альтернативу Motion Matching алгоритму для автоматизированной анимации персонажей. Learned Motion Matching подход сочетает в себе преимущества классического Motion Learning алгоритма и нейросетей. Итоговая модель не хранит данные анимации или дополнительные метаданные в памяти, в отличие от стандартного MM алгоритма. При этом LMM модель сохраняет качество анимации, контроль и скорость работы, как в MM алгоритме.
Исследователи из University of Washington разработали нейросеть, которая по изображению моделирует процесс старения и омоложения лица человека. На вход модель получает фото лица младенца. На выходе нейросеть генерирует изображения прогрессивно стареющего лица. Аналогично для омоложения. Подход основан на архитектуре генеративно-состязательной сети. Предложенная модель обходит state-of-the-art подходы для моделирования возрастной трансформации.
REALM — это метод для предобучения языковых моделей. С помощью REALM из предобученной модели можно извлекать знания о мире напрямую из сырых документов. При этом модели не нужно хранить факты в весах. Суть подхода в том, что модель представления слов обучается совместно с моделью извлечения знаний. По результатам экспериментов, REALM модель с 300 миллионами параметров на 4 пункта обходит T5 c 11 миллиардами параметров на задаче Open-QA.