Pile — это датасет с разнообразными текстами на 825 гигабайт для обучения языковых моделей. Датасет состоит из 22 датасетов меньшего размера, которые объединили в один. Ключевое отличие Pile — разнообразие типов текстовых данных: научные статьи, веб-страницы, GitHub репозитории, логи чатов и книги.