К вопросу о поиске данных, в портал открытых данных по Армении (data.opendata.am) [1] мы начали загружать больше данных из разных источников и автоматически. Я вспомнил навыки по загрузке данных в CKAN и просто загрузил датасеты которые собирал в рамках Common Data Index с фильтром по Армении как по стране. Сейчас там более 700 наборов данных и ещё не меньше можно собрать.
По такому же принципу существует портал openAfrica [2], тоже общественная инициатива, только они собрали 6 886 по всему континенту. Не очень много, можно и больше, я недавно с ними общался и подсказывал где больше африканских порталов с данными. Собственно порталы на базе CKAN обладают встроенными API и функциями сбора данных из других порталов. По опыту API удобнее, правда.
И вот тут есть особенность что чем больше страна, тем больше по ней данных разбросано по международным и научным каталогам данных, потому что есть данные исследователей из страны, есть данные по биоразнообразию, есть данные исследований о земле, данные спутниковых снимков и так далее. Если поискать, например, данные о России за пределами России то можно насобирать до 40-50 тысяч наборов данных без феноменальных сложностей.
На одном только портале Pangaea более 14 тысяч наборов данных [4] по ключевому слову "Russia". К примеру, по слову "Armenia" находится только 46 наборов данных [5]. Поэтому размер территории, экономики и научной активности имеет значение когда собираешь данные по отдельной стране, за её пределами.
Я когда-то думал об этом размышляя над перезапуском нашего российского Хаба открытых данных [3]. Я совершенно не шучу что туда можно очень быстро добавить очень много данных, очень-очень много данных, разного размера, от маленького объёма до баз данных которые невозможно обработать на персональном компьютере.
Но в целом Государство российское, в его нынешней инкарнации, много лет скорее препятствует работе по повышению доступности данных. Помимо того что они убили Кенни портал открытых данных data.gov.ru, так за все эти годы не появилось ни одного портала научных данных, кроме ЕСИМО, нет нормальных каталогов геоданных, и сами открытые данные госорганов сейчас крайне фрагментированы даже когда доступны.
Поэтому можно ли и нужно ли создавать Российский национальный не-государственный портал открытых данных - это вопрос открытый. И в значительной степени он упирается в аудиторию такого проекта.
Ссылки:
[1] https://data.opendata.am
[2] https://africaopendata.net
[3] https://hubofdata.ru
[4] https://pangaea.de/?q=Russia
[5] https://pangaea.de/?q=Armenia
#opendata #datasets #russia #armenia #datacatalogs #data