🤖 Дедубликация: как OpenAI и FastAPI спасут Habr от дублей
В статье рассказывается о том, как модели OpenAI помогают в задаче дедубликации текстов и similarity search. Рассмотрены различные подходы к решению проблемы: от концепции MinHash до реализации на эмбеддингах современных трансформенных моделей. В статье также описан пример создания микросервиса на FastAPI для поиска дубликатов постов.
🔗 Основной сайт
🔗 Зеркало