Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation (CVPR 2023)
Novel Diffusion Audio-Gesture Transformer is devised to better attend to the information from multiple modalities and model the long-term temporal dependency. M
Новая система на основе диффузии для эффективного захвата кросс-модальных ассоциаций между аудио и жестами для высокоточной генерации жестов на основе аудио.
🖥 Github: https://github.com/advocate99/diffgesture
⏩ Paper: https://arxiv.org/abs/2303.09119v1
💨 Dataset:https://paperswithcode.com/dataset/beatai_machinelearning_big_data