Обложка канала

Futuris

2134 @Futuris

Аналитика и субъективный взгляд на последние новости в сфере технологий и искусственного интеллекта.

Futuris

3 года назад
Открыть в
Ещё недавно писал про то, что Meta представили новый подход, позволяющий моделькам генерировать более 1 миллиона токенов, но тут исследователи из Microsoft Research представили LONGNET - вариант трансформера, способный масштабировать длину последовательности до более чем 1 миллиарда токенов 🤯 без потери в более коротких последовательностях. Это достигается за счет использования нового элемента, называемого расширенным вниманием, который позволяет уменьшить сложность обработки до линейной. Это преодолевает ограничения процессора и памяти, позволяя эффективно масштабировать длину последовательности с практически постоянным временем выполнения. Похоже в ближайшие пару лет, ограничения длины токенов могут просто исчезнуть🤓 www.marktechpost.com/2023/07…equences
Microsoft Research Introduces LongNet: A Transformer Variant That Can Scale Sequence Length To More Than 1 Billion Tokens With No Loss In Shorter Sequences

Scaling neural networks has been popular in recent years. Several potent deep networks are produced with the depth largely increased for exponential expressivity. Then, the hidden dimension is effectively expanded using sparse MoE models and model parallelism techniques. As the last atomic dimension of the neural network, the sequence length should be as long as possible. There are several benefits when the sequence length restriction is removed. First, it gives models a sizable memory and receptive field, enabling them to interact with people and the outside environment. Second, lengthier contexts include more intricate causal chains and thought processes, which models

MarkTechPost