Futuris(@Futuris). Ещё недавно писал про то, что Meta представили новый подход, позволяющий моделькам генерировать боле

Ещё недавно писал про то, что Meta представили новый подход, позволяющий моделькам генерировать более 1 миллиона токенов, но тут исследователи из Microsoft Research представили LONGNET - вариант трансформера, способный масштабировать длину последовательности до более чем 1 миллиарда токенов 🤯 без потери в более коротких последовательностях. Это достигается за счет использования нового элемента, называемого расширенным вниманием, который позволяет уменьшить сложность обработки до линейной. Это преодолевает ограничения процессора и памяти, позволяя эффективно масштабировать длину последовательности с практически постоянным временем выполнения. Похоже в ближайшие пару лет, ограничения длины токенов могут просто исчезнуть🤓 www.marktechpost.com/2023/07…equences