Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases В данной работе исследуется возможность использования квантования INT4 для языковых моделей и показываем. 🖥 Github: https://github.com/microsoft/DeepSpeed ⏩ Paper: https://arxiv.org/pdf/2301.12017v1.pdf ⭐️ Dataset: https://paperswithcode.com/dataset/multinli ai_machinelearning_big_data