Я регулярно пишу про то как устроена публикация научных данных в мире, напомню о том как она сейчас устроена в России.
В отличие от многих развитых и развивающихся стран в России отсутствует национальный репозиторий/каталог научных данных по аналогии с Zenodo (EU), ScienceDb (China) и многими другими. Впрочем аналогичная ситуация со всеми результатами научных исследований, статьями, диссертациями, конференциями и т.д., отсутствует централизованная система поиска по ним.
В то же время если не у всех, то у многих университетов и исследовательских центров есть порталы научной публикации, как правило они построены на базе DSpace, реже других видах ПО, но почти всегда open source. Ещё реже это какие-то собственные разработки или какие-то отдельные платформы.
Относительно недавно я упоминал 4 таких репозитория [1] в котором есть явное указание на наборы данных. Но, конечно, они не единственные. К системе научного раскрытия данных можно отнести систему ЕСИМО [2], но она относится не к институциональным, а скорее к функциональным системам публикации данных. Наборы данных из ЕСИМО плохо индексируются поисковиками, у них отсутствуют уникальные идентификаторы типа handle или DOI, даже просто прямые пермалинки отсутствуют.
В то же время, часть научных наборов данных рассеяны и не систематизированы по каталогам публикаций университетов, всё те же инсталляции DSpace,
Например, есть вот такой набор данных в репозитории СПбГУ [3] или вот такой [4], их можно найти вперемешку со статьями с ключевым словом "Dataset" [5], но в отдельную коллекцию или фильтр они не выделены. При том что внутри системы они достаточно чётко классифицированы по типу "dc:dataset", но фильтр по типу контента в этом репозитории не выставлен поэтому одним кликом их не отфильтровать. Надо выгружать все меданные с портала и искать уже по ним.
А иногда и даже тип контента указан недостаточно. К примеру, публикация в Электронном архиве УГЛТУ [6] включает данные в Excel файле, но тип её "Book" или же публикации данных Тихоокеанского океанологического института им. В.И. Ильичева выделены в специальную коллекцию Research data [7], но сами публикации имеют тип "Article".
Всё это о том что, по факту, скрытый пласт публикуемых научных данных в России далеко не нулевой, но из-за того что нет систематизации их публикации, то и находить их сложно. Фактически, делать это можно более-менее точно лишь по типам публикуемых файлов относящихся к данным.
В мире такой методической работой по публикации научных данных занимаются, или местные академии наук (Китай), или правительства/министерства науки (ЕС, Аргентина, США и др) и организации вроде Research Data Alliance в части систематизации метаданных и разработки стандартов.
И это же, кстати, то что можно отнести к базовой цифровой научной инфраструктуре. Когда, де факто, государства напрямую или через субсидии научным институтам создают инфраструктуру распространения научных знаний, упрощая учёным популяризацию их работ и облегчая доступ к данным сделанных другими.
Ссылки:
[1] https://t.me/begtin/4912
[2] http://portal.esimo.ru/portal/
[3] https://dspace.spbu.ru/handle/11701/19623
[4] https://dspace.spbu.ru/handle/11701/17279
[5] dspace.spbu.ru/simple-…e-search
[6] elar.usfeu.ru/handle/…789/3059
[7] data.poi.dvo.ru/jspui/h…56789/13
#opendata #openresearch #openaccess #russia #datasets