Ivan Begtin(@begtin). Я регулярно пишу тут в канале про порталы открытых данных , научные каталоги и другие каталоги данны

Я регулярно пишу тут в канале про порталы открытых данных , научные каталоги и другие каталоги данных, а за всем этим стоит пока небольшой проект создания общедоступного поискового индекса по всем доступным данным, открытый аналог Google Search. Он так и называется Common Data Index. Причём этот проект 4-х этапный, где каждый этап отдельный под проект. Чтобы создать поисковую систему нужно: 1. Создать реестр большинства каталогов данных 2. Собрать описания наборов данных в первичные индексы 3. Создать единый поисковый индекс и веб интерфейс над ним 4. Создать систему архивации ключевых данных и обогащение поискового индекса информацией из сохранённых наборов данных Вот так это выглядит в майндмапе. А вот так выглядит первая часть этого проекта, каталог каталогов данных [1] пока в виде репозитория где каждому каталогу соответствует отдельный YAML файл с метаданными и единый набор данных каталога каталогов собирается в JSONL файл. Сейчас в этом каталоге каталогов 1736 записей, часть из них надо вычищать как уже недоступные, а многие просто ещё не найдены. потенциально их около 2500-3000. Чем-то проект похож на datacatalogs.ru который мы в @infoculture делали в прошлые годы и тоже как потенциальную основу для поисковика по данным в России. Сейчас есть понимание что делать поисковик только по российским данным - это недостаточные амбиции, если делать то сразу глобально. Пока об этом проекте я пишу только тут в телеграм канале, он в стадии проектирования и я его только начал выводить из собственного pet проекта в активную фазу, но что могу сказать сразу так это то что есть большое желание сделать поисковую систему по данным используя технологии о которых я ранее писал - идентификацию семантических типов данных, а также инструменты автоматизации data discovery. Ссылки: [1] github.com/commond…registry #opendata #opensource #projects