TechSparks(@techsparks). Большие языковые модели (large language models, LLMs) нынче штука модная и на слуху благодаря их спо

Большие языковые модели (large language models, LLMs) нынче штука модная и на слуху благодаря их способности довольно связно (иногда) дописывать текст по нескольким начальным словам. Самая знаменитая — GPT-3, у Яндекса есть YaLM и т.д. Но тут исследователи из Гугла предложили и описали в работе AudioLM — машиннообученную модель, которая похожим образом работает со звуками, продолжая устную, а не письменную речь (без преобразования речь в текст и обратно). Звучит местами отлично, а особенно прикольно, когда она продолжает не речь человека, а музыкальные фразы, исполненные на фортепиано. Особенно это все радует на фоне разнообразных успехов генеративных картинок и видео по текстовым затравкам: становится понятно, что со звуковой дорожкой к генеративным визуальным продуктам всё тоже будет хорошо. www.technologyreview.com/2022/10…neration/ (Оригинал статьи - https://arxiv.org/pdf/2209.03143.pdf )