Обложка канала

NeuroHive - Нейронные сети

3406 @neurohive

Канал про нейронные сети и новые методы решения задач в машинном обучении

NeuroHive - Нейронные сети

3 года назад
Открыть в
LONGLLaMA: языковая модель, способная обрабатывать длинные контексты из 256 000 токенов Модель LONGLLAMA-3B достигла точности 94,5% при 100 тысячах токенов и 73% при 256 тысячах токенов, в то время как базовая модель OpenLLAMA не способна обрабатывать контексты, превышающие ее длину обучения в 2 тысячи токенов. Модель дообучалась по методу Focused Transformer (FOT) для расширения эффективного понимания контекста. FOT использует подход на основе контрастного обучения, при котором модель обучается как на позитивных, так и на негативных примерах.