Интересная статья для тех, кто ковыряется с языковыми модельками, особенно с gpt2 и gpt3.
Суть вкратце: чуваки нашли "аномальные" токены, большинство из которых выглядят как-то странно, например "externalToEVA", "rawdownloadcloneembedreportprint", "PsyNetMessage". Так вот, если попросить какую-либо GPT3 модельку повторить это слово или спросить, что это слово обозначает с параметром "temperature" равным нулю, модель начинает вести себя странно: повторяет не то, троит, агрится, генерирует какой-то бред про священое писание, говорит, что у вас нет доступа к данной информации (прям SCP какой-то, лол), может вообще послать нахуй. Некоторые из токенов ломают и ChatGPT.
Там же в статье список этих токенов и возможное объяснение, почему так происходит.
Зачем вам эта информация вам я не знаю, но кажется, для себя я нашёл занятие на вечер: буду задрачивать GPT3 этими токенами по разному их комбинируя, чтобы смотреть на хуйню.