Продолжая про проект Common Data Index, для тех кто интересуется какие каталоги данных есть в мире в Github'е в репозитории [1] уже собрано описание более чем 1450 каталогов с данными, а это включает то на каком ПО они работают, какие там точки подключения к API и многое другое.
Причём вначале было около 1700, но более чем 350 уже не существуют и были удалены и около 100 ещё добавлено.
Тем кто хочет посмотреть на список то он есть в виде наборов данных в JSON lines [2] и CSV [3].
Так вот что я могу сказать, так это повторить предыдущие выводы:
1. Геоданные составляют основную часть открытых и общедоступных данных, если не считать отдельные агрегаторы научных данных вроде zenodo.org, после их индексирования скорее всего несколько это изменится
2. Проблема в том что геокаталогов много, а списков их нет. Например, инсталляций Geonetwork уже собрано 111 и их ещё очень много и искать их долго. А число инсталляций GeoNode, GeoServer просто не сосчитать. Правда обычно там и данных публикуется до 100 наборов данных, максимум.
3. Россия родина изобретателей велосипедов (с). Не шучу, какое-то неимоверное число собственных разработок порталов данных и геопорталов. Хороших мало, но тоже есть. Поражает скорее расточительность. Это резко контрастирует с европейскими странами и более всего похоже на Китай.
4. Я частично уже понимаю как собирать метаданные с большинства порталов данных , это положительный момент, большую часть наборов данных можно охватить используя примерно 10-15 схем метаданных. Это типовое ПО и крупные проекты вроде Zenodo, DataOne и др.
А самое главное что на основе это уже удалось собрать индекс первичных данных на 3.1 миллионов наборов данных.
Ссылки:
[1] github.com/commond…registry
[2] github.com/commond…gs.jsonl
[3] github.com/commond…port.csv
#opendata #datasets #geodata #datacatalogs
Registry of data portals, catalogs, data repositories and e.t.c. - GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories and e.t.c.