Machinelearning(@ai_machinelearning_big_data). Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure

Machinelearning

19282 @ai_machinelearning_big_data

Открыть

Технологии . программирование , нейронные сети . канал с самой свежей и актуальной информацией из мира it

Machinelearning

@ai_machinelearning_big_data 3 года назад

Открыть в

Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases В данной работе исследуется возможность использования квантования INT4 для языковых моделей и показываем. 🖥 Github: https://github.com/microsoft/DeepSpeed ⏩ Paper: https://arxiv.org/pdf/2301.12017v1.pdf ⭐️ Dataset: https://paperswithcode.com/dataset/multinli ai_machinelearning_big_data