Обложка канала

TechSparks

60319 @techsparks

Канал про бигдату, науку, технологию, маркетинг, интернет и вообще про всё интересное.

TechSparks

4 года назад
Открыть в
Большие языковые модели (large language models, LLMs) нынче штука модная и на слуху благодаря их способности довольно связно (иногда) дописывать текст по нескольким начальным словам. Самая знаменитая — GPT-3, у Яндекса есть YaLM и т.д. Но тут исследователи из Гугла предложили и описали в работе AudioLM — машиннообученную модель, которая похожим образом работает со звуками, продолжая устную, а не письменную речь (без преобразования речь в текст и обратно). Звучит местами отлично, а особенно прикольно, когда она продолжает не речь человека, а музыкальные фразы, исполненные на фортепиано. Особенно это все радует на фоне разнообразных успехов генеративных картинок и видео по текстовым затравкам: становится понятно, что со звуковой дорожкой к генеративным визуальным продуктам всё тоже будет хорошо. www.technologyreview.com/2022/10…neration/ (Оригинал статьи - https://arxiv.org/pdf/2209.03143.pdf )
Google’s new AI can hear a snippet of song—and then keep on playing

The technique, called AudioLM, generates naturalistic sounds without the need for human annotation.

MIT Technology Review