AudioPaLM: мультимодальная модель от Google для голосового перевода
Google представила AudioPaLM - модель для обработки и генерации речи, объединяющую две языковые модели от Google - PaLM-2 и AudioLM - в мультимодальную архитектуру. Модель умеет распознавать речь, копировать интонацию, акцент, выполнять перевод речи на другие языки на основе короткой голосовой подсказки и делать транскрипцию.
AudioPaLM унаследовала от AudioLM возможности идентификации говорящего и копирования интонации, от PALM-2 - лингвистические способности LLM. Эксперименты показали, что инициализация AudioPaLM c весами текстовой модели, полученными на предварительном обучении, заметно улучшает обработку речи. Матрица эмбеддингов предварительно обученной текстовой модели используется для моделирования набора аудио-токенов. Результирующая модель превосходит state-of-the-art модели перевода речи и способна выполнять перевод речи в текст для языков, комбинации которых не были учтены при тренировке (zero-shot перевод).
#StateoftheArt