Калифорнийская компания Flex Logix представила уникальный ускоритель логического вывода для систем искусственного интеллекта. При крошечных размерах он превосходит по ряду показателей NVIDIA Jetson Xavier NX и Tesla T4.
Новый чип InferX X1 с площадью кристалла 54 кв. мм работает на частоте от 533 до 933 МГц и производится по морально устаревшим технологическим нормам 16 нм.
При этом он содержит реконфигурируемые тензорные процессоры nnMAX в конфигурации 2x2.
Они выполнены по технологии EFLX eFPGA и оптимизированы для граничных вычислений (EdgeAI).
InferX X1 обеспечивает низкую стоимость (от $34 за модель с частотой 533 МГц в партии ≥ 1000 шт.), малое энергопотребление (до 13,5 Вт при частоте 933 МГц) и лёгкую масштабируемость.
Чип оснащён встроенной памятью SRAM размером 13 Мб. Он поддерживает оперативную память LPDDR4x DRAM и 4-полосный интерфейс PCIe Gen 3/4.
Помимо стандартного блока целочисленных операций (INT8), чип содержит блок обработки для чисел с плавающей запятой в формате BF16.
Это новый стандарт Brain Float 16, разработанный в Google Brain специально для нейронных сетей.
По сравнению с FP32 он требует меньше вычислительных ресурсов, обеспечивая для практических задач сравнимую точность результата.
В формате FP32 для записи числа в экспоненциальном виде отводится 32 бита.
Из них первый бит хранит знак (+ / -), следующие восемь — порядок (показатель степени), а остальные 23 бита — это мантисса (дробная часть логарифма числа).
Запись BF16 использует 16 бит, из которых на мантиссу приходится всего 7.
Эксперименты показали, что для нейронных сетей большая точность не приносит заметных преимуществ, а за счёт усечённой записи объём памяти можно сократить вдвое.
Согласно опубликованному Flex Logix отчёту, InferX X1 справляется с обработкой изображений на 20 — 30% быстрее Jetson Xavier NX в распространённых тестах.
В оптимизированных под формат BF16 тестовых наборах InferX X1 оказывается в 11 раз быстрее Xavier NX и в 18 раз более энергоэффективным, чем Tesla T4.