Исследователи Технологического института Сингада представили модель автоматического обнаружения и фильтрации спама в электронной почте. Ключевой особенностью алгоритма является высокая скорость обучения.
Модель основана на многокритериальном отборе признаков и адаптивной капсульной нейросети. В отличие от предыдущих подходов к фильтрации спама, модель была обучена как на датасетах с изображениями, так и на текстовых датасетах.
В текстовых датасетах для выделения признаков использовалось два, а в датасетах с изображениями – три метода, включая преобразование Уолша-Адамара. Многокритериальный отбор признаков осуществлялся с помощью гибридного эвристического алгоритма G-SFO. Оптимально выбранные признаки подавались на вход капсульной нейросети, осуществляющей классификацию писем.
Помимо высокой скорости обучения, модель превосходит предыдущие state-of-the-art подходы по точности классификации спама.
Источник: link.springer.com/article…-00217-9
#StateoftheArt
Google AI представила масштабируемый генератор датасетов Kubric. Kubric – open-source фреймворк, использующий PyBullet и Blender для создания высококачественных изображений.
Синтетические данные имеют множество преимуществ над реальными, включая более низкую стоимость сбора данных, большее количество меток, контроль свойств датасета и избежание рисков, связанных с лицензированием и конфиденциальностью.
В Kubric PyBullet обучает модель физическому моделированию взаимодействия с другими объектами, а Blender используется для рендеринга изображений. Инструмент был создан для снижения затрат и ресурсов, связанных с получением реальных данных.
Разработчики продемонстрировали эффективность Kubric, используя серию из 13 отдельных датасетов, которые были сгенерированы для задач распознавания объектов в видео нейросетью без учителя. Особенностью Kubric является возможность быстро генерировать крупномасштабные датасеты.
Github: https://github.com/google-research/kubric
Источник: https://arxiv.org/abs/2203.03570
#Datasets
✅ Где осваивать MLOps-практики?
📚 29 марта в OTUS стартует практический онлайн-курс «MLOps». Во время обучения вы освоите актуальные инструменты и технологии: Kubernetes, Spark, Python, Docker. Вас ждет общение с преподавателями-экспертами, профессиональное комьюнити, разбор рабочих кейсов и многое другое. Партнёром курса является Сбер.
🚀 Не упустите возможность проложить себе путь в крупнейшие IT-компании!
👉 Пройдите вступительный тест, чтобы присоединиться к группе по спец.цене https://otus.pw/0gR5/
DeepMind разработала алгоритм восстановления древнегреческих текстов по поврежденным письменам. Модель датирует письмена с погрешностью до 30 лет от их истинного возраста и определяет место их написания с точностью 72%.
При анализе древних текстов историки обычно заинтересованы в решении трех задач: восстановлении текста и точном определении того, когда и где он был написан. Для этого они ищут отличительные черты и закономерности в стиле письма и сравнивают их с текстами, которые уже были исследованы и датированы.
Для обучения модели, решающей все три задачи, исследователи использовали около 60 000 хорошо изученных древнегреческих текстов и написанных между 700 годом до нашей эры и 500 годом нашей эры. Команда замаскировала некоторые символы в текстах, а затем сравнила предсказания модели для “недостающего” текста с реальными надписями.
Исследователи планируют применить модель к другим древним языкам и письменным носителям.
Источник: www.nature.com/article…-04448-z
#AppliedDS
Google представила нейросеть 4D-Net, объединяющую данные с установленных в автомобиле лидара и камеры. Модель позволяет повысить безопасность беспилотных автомобилей и быстродействие установленных в них алгоритмов потокового анализа сцен.
Количество точек, трехмерные координаты которых регистрирует лидар, зависит от удаленности объекта – чем дальше он находится от лидара, тем меньше точек его поверхности будут записаны. В то же время камера обеспечивает равномерную плотность данных, что позволяет осуществлять сегмантическую сегментацию для распознавания объектов. Модель Google объединяет облака точек и RGB-изображения в последовательные моменты времени, формируя четырехмерную карту сцены.
В 4D-Net используется поиск архитектуры нейросети для обучения связей между двумя типами данных: каждый слой признаков входных данных одного датчика комбинируется со слоями признаков данных второго датчика. Нейросеть превзошла предыдущие state-of-the-art модели в бенчмарке Waymo Open Dataset. Также за счет комбинации мультимодальных данных 4D-Net улучшает точность распознавания удаленных объектов, которые потенциально могут привести к аварии.
Источник: openaccess.thecvf.com/content…aper.pdf
#StateoftheArt
Walmart внедрил на сайте и в приложении функцию виртуальной примерки одежды, которая основана на комбинации алгоритмов обработки изображений в реальном времени, компьютерного зрения и глубокого обучения. Функция позволяет пользователям увидеть, как одежда будет выглядеть на модели с заданными параметрами.
Цель Walmart – уменьшить количество возвратов товаров. Пользователи могут выбрать из 50 различных моделей, чтобы найти ту, которая наилучшим образом отражает их собственный тон кожи, рост и форму тела. Модель учитывает все размеры товара, включая длину рукавов.
Функция «Выбери мою модель» на текущий момент работает для нескольких тысяч товаров Walmart. В ближайшее время она станет доступной для большинства брендов, представленных в магазине.
Источник: techcrunch.com/2022/03…shoppers
#AppliedDS
🔥 Быстрая проверка гипотез — это одна из главных стратегий, способных сделать стартап успешным. Она позволяет чаще получать обратную связь от инвесторов за счет возможности быстро разрабатывать простые прототипы сервисов, частично реализующих функционал проекта.
👉Как быстро прототипировать сервисы, использующие глубокое обучение?
📌 В OTUS, 24 марта в 20:00 (мск), в рамках онлайн-курса «MLOps» состоится бесплатный вебинар для тех, кто занимается машинным обучением. На занятии с практикующем преподавателем мы рассмотрим полный цикл разработки прототипа ML-сервиса, начиная от обучения модели на собранном датасете, заканчивая развертыванием его в виде web-приложения.
✅ Чтобы зарегистрироваться на встречу, пройдите вступительный тест - https://otus.pw/3SIm/
Microsoft анонсировала Azure Health Data Services – систему, объединяющую медицинские данные из нескольких источников для последующего анализа. Инструмент позволяет использовать мультимодальные данные в моделях машинного обучения для более точной постановки диагноза.
Одной из проблем сферы здравоохранения является изолированность датасетов. Цель Microsoft – объединение данных из API-интерфейсов клинических, визуализационных и медицинских технологий, чтобы их можно было изучать одновременно. Используя новый продукт, организации могут управлять, анонимизировать, преобразовывать и просматривать данные о состоянии здоровья.
С использованием Azure Health Data Services врач может одновременно запросить для одного пациента МРТ, историю болезни и данные, собранные с носимого устройства, чтобы определить, склонен ли пациент к нездоровому образу жизни. В то же время группы клинического анализа могли бы использовать систему для изучения того, у скольких пациентов старше определенного возраста наблюдался определенный симптом при использовании данного препарата.
В Microsoft утверждают, что система позволит ускорить темпы исследований, помогая ученым быстрее анализировать информацию и обнаруживать новые взаимосвязи в разрозненных медицинских данных.
Источник: venturebeat.com/2022/03…aneously
#Development
Исследователи MIT разработали алгоритм поиска аномалий в потоковых данных. Модель позволяет изучить причинно-следственных связи в задачах мониторинга сбоев энергосистемы и дорожного трафика.
Поиск выбросов в потоковых данных, собираемых несколькими датчиками, осложняется тем, что каждая выборка охватывает несколько временных рядов. Разработанная в MIT модель представляет собой комбинацию нормализующего потока и байесовской сети. Байесовская сеть факторизирует совместную вероятность данных нескольких временных рядов на менее сложные условные вероятности, которые проще параметризовать и исследовать. Такой подход позволяет оценить вероятность наблюдения определенных показаний датчиков и выявить аномалии.
Алгоритм был протестирован на трех датасетах (с данными датчиков электросети и системы водоснабжения, а также с данными дорожного движения) и превзошел предыдущие state-of-the-art подходы. Модель быть применена и к другим задачах, в которых большое количество взаимосвязанных датчиков собирает и передает данные в реальном времени.
Источник: https://openreview.net/forum?id=45L_dgP48Vd
#StateoftheArt
Калифорнийский стартап Mage открыл доступ к веб-инструменту для создания моделей ранжирования без написания кода.
Пользователям Mage требуется подключиться к существующему источнику данных (например, Amplitude и Snowflake). После этого инструмент предоставит рекомендации по очистке и улучшению данных, чтобы максимизировать производительность модели во время обучения. Затем прогнозы модели можно будет использовать в режиме реального времени с помощью API-запросов.
Система позволяет повысить вовлеченность пользователей за счет ранжирования статей, сообщений и комментариев, а также увеличить конверсию путем показа наиболее релевантных товаров.
В Mage используются Scikit-learn, XGBoost, TensorFlow и SHAP. Инструмент бесплатен до определенного размера датасета и количества API-запросов. Для безлимитного доступа необходимо приобрести подписку.
Источник: venturebeat.com/2022/02…lability
#Development
Марк Цукерберг анонсировал планы Meta по развитию метавселенной. Будущие проекты компании будут нацелены устранение языкового барьера путем перевода речи в реальном времени и управление состоянием виртуального окружения с помощью голоса.
Цукерберг утверждает, что взаимодействие в виртуальных мирах будет зависеть от общения с людьми на разных языках. Для этого инженеры Meta работают над моделью «No Language Left Behind», которая сможет изучать новые языки, используя меньше обучающих данных по сравнению с существующими моделями. Такой подход позволит гарантировать, что все языки будут доступны для перевода. Помимо этого, ведется разработка модели Babelfish, обеспечивающий speech-to-speech перевод для всех языков в реальном времени.
Также Цукерберг анонсировал Builder Bot — систему, позволяющую создавать и импортировать 3D-объекты в виртуальные сцены с помощью голосовых команд. С ее помощью пользователи смогут создавать сложные миры для исследования и обмена ими с другими в метавселенной, используя только голос. Builder Bot является частью недавно анонсированного проекта Meta CAIRaoke, целью которого является развитие чат-ботов и голосовых помощников.
Источник: about.fb.com/news/20…-with-ai#Entertaining
Yandex Research открывает резидентскую программу по машинному обучению. ML-специалисты и ученые из смежных областей получат возможность участвовать в исследованиях мирового уровня, публиковать статьи о полученных результатах и обсуждать актуальные вопросы по темам ML на международных конференциях. Участие в программе оплачивается.
Подать заявку могут как студенты и аспиранты вузов, так и опытные исследователи в смежных областях: например, математике, физике, компьютерных науках. Идеальных знаний ML не требуется, но наличие фундаментального образования — обязательное условие.
Узнать о программе подробнее и заполнить анкету на участие можно здесь.
Израильский стартап IntellAct разработал систему мониторинга действий сотрудников аэропорта для уменьшения задержек рейсов. Предварительные испытания системы, проведенные авиакомпанией El Al в аэропорту Бен-Гурион, показали, что она сокращает задержки вылетов на 15%.
#AppliedDS
#промо
При работе большими данными часто обучение моделей возможно только с использованием Spark. Но как потом эту модель обернуть в REST интерфейс и запустить в форме веб-сервиса?
📚 Узнаем на бесплатном demo-занятии 2 марта в 20:00 (мск) с Павлом Филоновым, Ex-Data Science Manager в Kaspersky.
🔥 На вебинаре мы рассмотрим несколько подходов к решению такой задачи, начиная от самых простых до более сложных вариантов (MLFlow serve, ONNX export).
❗️ Открытый урок — это возможность попробовать онлайн-курс «MLOps», разработанный с поддержкой Сбера.
👉 Для участия пройдите вступительный тестhttps://otus.pw/wzFDU/
Машинное обучение вошло в тройку ведущих технологий в области охраны природы. В статье приводится обзор задач, решаемых с помощью машинного обучения – от оценки популяции шимпанзе до определения местонахождения китов.
#Entertaining
В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки.
#Datasets
Онлайн-учебник Школы анализа данных Яндекса пополнился новыми главами
Теперь база знаний ШАД по Machine Learning также включает темы про архитектуры нейросетей и их обучение. А ещё авторы добавили полезные материалы по математике ML, чтобы у вас была возможность закрепить знания из предыдущих разделов. Совсем скоро создатели учебника снова опубликуют свежие части, поэтому следите за обновлениями и углубляйтесь в машинное обучение вместе с материалами от экспертов Яндекса. Пособие пригодится для систематизации знаний.
Читать новые главы онлайн-учебника
Знания и опыт выпускников, преподавателей и друзей Школы анализа данных — в одном онлайн-учебнике. Погрузитесь в ML и узнайте, какие технологии меняют лицо современной науки и дают жизнь сервисам, которыми пользуются миллионы людей.
Ученые MIT продемонстрировали алгоритм машинного обучения для непрерывной автоматизации дозирования анестезирующего препарата пропофола. Алгоритм может улучшить процесс отслеживания состояния пациентов во время операции.
#AppliedDS