UPD: Стартап Inflection привлек $1,3 миллиарда на очередном инвестраунде от группы инвесторов во главе с Биллом Гейтсом и экс-CEO Google Эриком Шмитдом. Больше инвестиций среди генеративных AI стартапов привлекала только OpenAI - $11 миллиардов.
Инвестраунд прошел после анонса state-of-the-art модели для решения логических задач Inflection-1, и запуска персонального AI-ассистента Pi, умеющего планировать и составлять расписания, собирать информацию и выполнять другие рутинные задачи.
#AppliedDS
@neurohive
Phi-1 - языковая модель для генерации кода от Microsoft Research всего с 1,3B параметров, достигшая близкого к state-of-the-art уровня оценок с помощью тщательно собранного авторами датасета
Большинство датасетов с кодом непригодны для обучения моделей: не содержат полной информации, осмысленных комментариев, токены представляют собой конфигурационные файлы или черновые варианты.
Авторы создали собственный близкий по качеству к учебнику по программированию датасет CodeTextBook с кодом на языке Python, содержащим 6B токенов, отобранных из The Stack и StackOverflow, а также 1B токенов, сгенерированных GPT-3.5, при этом последние включали комментарии и описание.
Дообучение модели на датасете CodeExercises, содержащим 180M токенов с синтетически сгенерированными упражнениями с подробными описаниями, неожиданно наделило модель эмергентными свойствами, например, использовать внешние библиотеки Pygame и Tkinter, хотя в датасете библиотеки не упоминались.
#StateoftheArt
@neurohive
AudioPaLM: мультимодальная модель от Google для голосового перевода
Google представила AudioPaLM - модель для обработки и генерации речи, объединяющую две языковые модели от Google - PaLM-2 и AudioLM - в мультимодальную архитектуру. Модель умеет распознавать речь, копировать интонацию, акцент, выполнять перевод речи на другие языки на основе короткой голосовой подсказки и делать транскрипцию.
AudioPaLM унаследовала от AudioLM возможности идентификации говорящего и копирования интонации, от PALM-2 - лингвистические способности LLM. Эксперименты показали, что инициализация AudioPaLM c весами текстовой модели, полученными на предварительном обучении, заметно улучшает обработку речи. Матрица эмбеддингов предварительно обученной текстовой модели используется для моделирования набора аудио-токенов. Результирующая модель превосходит state-of-the-art модели перевода речи и способна выполнять перевод речи в текст для языков, комбинации которых не были учтены при тренировке (zero-shot перевод).
#StateoftheArt
MAGVIT: open source генеративный видео-трансформер 10 в 1
Единая модель MAGVIT способна выполнять 10 задач генерации видео, среди которых увеличение FPS, экстраполяция кадров, создание видео за пределами кадра, заполнение пропущенных участков видео и генерация видео по заданным условиям. MAGVIT улучшил результаты state-of-the-art подходов на трех бенчмарках генерации видео. На датасете Kinetics-600 MAGVIT показал улучшение на 39%.
Авторы разработали 3D-VQ архитектуру для квантизации видео с высоким качеством восстановления. Квантизация происходит с коэффициентом 4 по времени и в 64 раза по высоте и ширине с использованием кодовой книги из 1024 элементов. Модель обучалась на общедоступном наборе данных Something-Something-V2.
Работа авторов будет представлена на конференции CVPR 2023, код модели доступен на Github.
#StateoftheArt
Проект «Закона об искусственном интеллекте» принят в Европарламенте. Что ждет разработчиков?
Европарламент принял проект закона большинством голосов: 499 «за», 28 «против» и 93 воздержавшихся. В Законе будут прописаны требования к моделям для предоставления услуг на территории ЕС. Нарушения будут караться штрафом до 20 млн евро или 4% от выручки компании.
Исследователи Стэнфордского университета оценили десять языковых моделей с точки зрения соответствия требованиям закона. Большинство моделей набрали менее 50% необходимых баллов. Open source модель BLOOM от Hugging Face показала лучший результат - 36 баллов. Однако другие open source модели, такие как LLaMA и Stable Diffusion v2, набрали всего 21 и 22 балла соответственно.
Модели с закрытым исходным кодом, такие как GPT-4 от OpenAI, набрали по 25 из возможных 48 баллов. PaLM 2 от Google - 27 баллов. Claude от Anthropic занимает предпоследнее место с 7 баллами.
#AppliedDS
Inflection-1: большая языковая модель, превосходящая GPT-3.5 в решении логических задач
Стартап Inflection официально представил Inflection-1 - большую языковую модель, на которой основан чат-бот Pi. Размер и возможности модели сопоставимы с GPT-3.5 (на которой основан ChatGPT), а обучение проводилось "на тысячах" GPU Nvidia H100. Inflection-1 конкурентоспособна или даже превосходит GPT-3.5, LLaMA и PaLM-540B в решении экзаменационных и логических задач.
Inflection-1 в среднем достигает средней оценки 72.7% по всем 57 задачам и точности более 90% на 5 задачах, 85% на 15 задачах. Для сравнения, эксперт-человек набирает в среднем 89.8%, в то время как средний человеческий оценщик показывает результат 34.5%.
Результаты свидетельствуют о хорошей производительности Inflection-1 в решении экзаменов средней и старшей школы и логических задач, например, "если Ваня бросил мяч на крышу, а Женя кинул его обратно, где находится мяч?".
#AppliedDS #StateoftheArt
PandasAI – библиотека, позволяющая выполнить базовый анализ данных с помощью запросов на естественном языке. Пользователь указывает один или несколько датафреймов и текстовый запрос, а ответ получает в форме нового датафрейма, числа или графика.
Для работы с библиотекой необходимо указать ключ OpenAI API или Google PaLM. Языковая модель автоматически распознает контекст по названию полей используемых датафреймов, а при использовании нескольких датафреймов сама определяет ключи их соединения.
#Development
#Entertaining
В последней песне The Beatles появится сгенерированный нейросетью Джон Леннон
Джон Леннон был застрелен в 1980 году, его голос был извлечен из старой демо записи, обработан и сделан "чистым", что позволило собрать и смикшировать трек.
Маккартни не раз заявлял, что мечтает записать еще хотя бы одну песню со своим другом Джоном Ленноном, нейросети сделали это мечту реальностью. Возникает вопрос: насколько использование генеративных моделей делает "настоящей" песню The Beatles? Мы узнаем об этом после выпуска песни, так как Маккартни не раскрыл деталей о самом треке.
Использование нейросетей для создания песен сейчас переживает важный момент. Песня "Not a Game", сгенерированная искусственным интеллектом с голосом Дрейка, стала вирусной и была запрещена на Spotify и других стриминговых сервисах по просьбе звукозаписывающих лейблов. Десятки тысяч других треков, имитирующих известных артистов, продолжают распространяться в социальных сетях.
Google представила Try-on – диффузионную модель, позволяющую пользователям сервиса «Покупки» примерить одежду на моделях с различным телосложением и оттенком кожи. Модель фотореалистично воспроизводит драпировку, облегание, растягивание и формирование складок ткани.
Функция уже доступна в США. Когда пользователь, просматривающий товар в поиске, нажимает кнопку примерки, он может выбрать модель с похожей формой тела и размером и посмотреть, подойдет ли он ему. Try-on позволяет точно воспроизвести, как одежда будет драпироваться, складываться, облегать, растягиваться и формировать складки на конкретных моделях. Представленные модели покрывают размеры от XXS до 4XL.
#Entertaining
Стартап Runway выпустил мобильное приложение, позволяющее пользователем использовать свою image-to-image модель Gen-1. Приложение трансформирует стиль видео на основе текстового запроса, изображения-референса или пресета.
#Entertaining
Курс «Английский для аналитиков» Яндекс Практикума
Для специалистов, которые хотят изменить свою профессиональную жизнь и работать в международной команде.
Обучение построено вокруг рабочих ситуаций и полезных для карьеры навыков:
🗣 Самопрезентация. Рассказ о своей роли, задачах, сфере ответственности на поведенческом интервью и в неформальной беседе.
🙌 Работа в команде. Стендапы, планирование спринтов, демонстрация навыков командной работы на собеседовании.
👨💻 Общение с заказчиками и исполнителями. Сбор требований у стейкхолдеров и постановка задач для разработчиков.
📈 Презентация результатов работы. Выступление на митапах, неформальное общение с коллегами из отрасли.
📝 Обсуждение решений по проекту. Генерация и аргументация идей, участие в мозговых штурмах.
🚀 Рефлексия и самоанализ. Ретроспектива, ревью, ответы на сложные вопросы.
Запишитесь на бесплатную консультацию. Кураторы определят ваш уровень языка и расскажут подробнее про обучение.
В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.
#Datasets
Adobe анонсировала новые версии Premiere Pro и After Effects, в которых добавлен функционал, позволяющий ускорить редактирование видео. Среди новых инструментов – редактирование видео по автоматически сгенерированной транскрипции и автоподбор цветового тона.
#AppliedDS
Новый тренд в IT-сфере - умные дома
Возможность развиваться в сфере IT и элитной недвижимости одновременно - это разработка автоматизированных систем "умный дом" для владельцев вилл, загородных домов, элитных квартир.
Предлагаем вам пройти бесплатный мастер-класс по разработке умного дома с нуля от успешного предпринимателя Дмитрия Карагеура, который создал более 160 умных домов по всей Европе.
Что вы получите?
— узнаете, что такое настоящий умный дом и для чего он нужен
— узнаете, как зарабатывать от 250 000 руб. до 3 000 000 руб. и более в месяц и где с нуля искать клиентов и работодателей
— уникальный авторский сертификат
— участие в сообществе профессионалов
Для тех, кто успеет пройти регистрацию, мы подготовили крутейшие подарки и самое главное - экскурсию по настоящему умному дому!
Регистрация 👈
Старт мастер-класса 12 апреля в 19:00 МСК
Школа анализа данных Яндекса вновь открыла приём заявок — он продлится до 7 мая. Успейте зарегистрироваться, чтобы получить возможность учиться у топовых учёных и IT-специалистов.
Программа длится 2 года, обучение бесплатное. Можно выбрать одно из направлений: data science, инфраструктура больших данных, разработка машинного обучения или анализ данных в прикладных науках.
Чтобы учиться в ШАДе, важно интересоваться машинным обучением, обладать хорошей математической подготовкой и владеть одним из языков программирования. Заполните анкету уже сейчас: https://clck.ru/344m7g
Если вы хотите узнать, как устроена учёба в ШАДе и кем можно стать после выпуска, регистрируйтесь на День открытых дверей — он пройдёт 13 апреля: academy.yandex.ru/datasch…l/enroll
Компьютерное зрение — технология, которая превращает настоящее в будущее. Уже сейчас ИИ с нами каждый день — направляет роботов-пылесосов и снимает блокировку телефона по FaceID. А в ближайшие 20 лет, по прогнозам экспертов, мы сможем легко купить себе беспилотный автомобиль, прокатиться на поезде без машиниста или получить диагноз от ИИ в районной больнице.
Если у вас есть опыт в Data Science — научитесь обучать CV-модели и работайте с передовыми технологиями. Для этого Яндекс Практикум запускает курс «Компьютерное зрение на базе нейронных сетей».
В программе — «три кита» компьютерного зрения: классификация, детекция и сегментация. За 3 месяца вы обучите модели, которые умеют:
— определять границы и сетку для пазла Судоку,
— узнавать настроение человека по фотографии;
— выявлять элементы дорожного движения для беспилотного автомобиля.
— сегментировать спутниковые снимки, чтобы определять местоположение объекта.
Вы освоите полный цикл работы с CV-моделями с нуля до релиза. А ещё — будете учиться у наставников — экспертов в области компьютерного зрения.
Записывайтесь в первый поток и работайте над технологиями, о которых писали фантасты.
Стартап Skillprint использует действия пользователя в играх для предсказания его настроения и когнитивных способностей. На основе этих данных модель рекомендует наиболее релевантные для пользователя игры, позволяющие улучшить настроение или развить определенный навык.
#Entertaining
Google AI опубликовали исследование, показывающее, что дефицит или избыток ряда системных биомаркеров, охватывающих почки, кровь и печень, можно предсказать по фотографиям глаз. Точность метода превосходит точность стандартных моделей логистической регрессии, использующих клинико-демографические признаки.
#StateoftheArt