Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration Macaw-LLM is a model of its kind, bringing together state-of-the-art models for processing visual, auditory, and textual information, namely CLIP, Whisper, and LLaMA.
Macaw-LLM - новый мультимодальный LLM, который легко объединяет визуальную, аудио и текстовую информацию. Модель построена на основе CLIP, Whisper и LLaMA и обеспечивает бесшовную интеграцию мультимодальных данных.
🖥 Github: https://github.com/lyuchenyang/macaw-llm
⭐️ Model: https://tinyurl.com/yem9m4nf
📕 Paper: https://tinyurl.com/4rsexudv
🔗 Dataset: github.com/lyuchen…ain/dataai_machinelearning_big_data