NLTK — библиотека для обработки естественного языка
NLTK предоставляет набор инструментов и ресурсов для обработки текстовых данных, анализа и извлечения информации, классификации текстов, работы с корпусами текстов и многое другое. NLTK содержит множество модулей и методов, которые облегчают процесс обработки текста и создания приложений в области обработки естественного языка.
В примере выше мы:
Загружаем корпус текста, который включает ресурсы для токенизации и удаления стоп-слов
Токенизируем текст, разделяя его на отдельные слова и знаки препинания
Удаляем стоп-слова, то есть слова, которые обычно не несут смысловой нагрузки
Производим частотный анализ, чтобы определить самые часто встречающиеся слова в тексте
Ставится командой ⚙️ pip3 install nltk
Документация и примеры кода здесь :3