Обложка канала

Ivan Begtin

3903 @begtin

I am focused on Open Data, Procurement, e-Government, Open Government and other tech stuff

Ivan Begtin

3 года назад
Открыть в
Целенаправленный поиск данных в мире привычно называется data discovery (или "обнаружение данных") и его применение можно разделить на корпоративное и общедоступное. Корпоративное применение этого термина - это про корпоративные каталоги данных, специальные внутренние инструменты для идентификации всех используемых баз данных, таблиц в них и сопровождающей информации. Корпоративные задачи data discovery - это идентификации персональных данных и соответствие требованиям законодательства, это систематизация данных для работы аналитиков, инженеров и разработчиков и, реже, но набирающее популярность применение - это идентификация данных для машинного обучения. Всё это решается коммерческими или открытыми продуктами вроде Open Metadata, Datahub и им подобным. О том что это подробнее на английском можно легко нагуглить, или прочитать, например, тут [1]. Как-нибудь я напишу об этом этом подробнее в лонгрид в рассылку Параллельно этом data discovery среди общедоступных данных - это поиск данных необходимых для исследовательских или рабочих задач. Как правило, это поиск открытых данных, либо данных имеющих какой-либо регламентированный доступ или возможность их запросить. Наиболее очевидный способ поиска - это привычные поисковые системы где вбиваешь что ищешь и добавляешь слова "data" или "dataset', чуть менее очевидный, но специализированный - это воспользоваться поиском Google для наборов данных он всё ещё экспериментальный, сильно зашумлённый SEOшниками коммерческих продуктов [3], но пока ничего другого сравнимого нет. Ни в Bing, ни в Ya[ndex] ничего подобного нет. Есть ли альтернативы? Какие ещё системы поиска по данным существуют? Они есть, их не так много и они чаще всего специализированы. Итак: - ArcGIS Hub search https://hub.arcgis.com/search - поисковая система по наборам данных опубликованных клиентами сервиса ArcGIS Hub, используемом широко в мире (в основном в США) для публикации геоданных и открытых данных. Это один из крупных поисковиков именно по разным геоданным. - OpenAIRE explore.openaire.eu - поисковая система по результатам научной деятельности (research output) в Евросоюзе, в первую очередь, но не только. Наборы данных подпадают под научную деятельность и OpenAIRE крупнейший индексатор и поисковик по подобным данным. - Datacite Commons commons.datacite.org - DataCite является одним из сервисов выдачи DOI со специализацией на данных. Их поиск работает по всем работам получавшим DOI через их сервис. Являются одним из источников для OpenAIRE - Da | Ra www.da-ra.de - поисковая система по открытым научным данным Германии - DANS EASY easy.dans.knaw.nl - поисковая система по открытым научным данным Нидерландов - DataMed datamed.org поисковая система по наборам данных в медицине Этот список неполон, я постарался указать лишь наиболее известные поисковые системы и обращаю внимание что в основном они создаются вокруг данных открытости науки. Исключение лишь ArcGIS Hub, но сколь долго он будет существовать неизвестно, поскольку коммерческая польза для него для компании неочевидна. А вот в сторону всё большего ухода в концепцию о том что open data = open research data уходят очень многие системы инфраструктуры открытости. Google Datasets в документации и дорожной карте показывают всё более тесную интеграцию с научными дата репозиториями, индексацию ORCID, DOI, ROR, связывание научных статей и цитируемых ими научных данных. Я лично не удивлюсь если в какой-то момент Google объединят поиск по наборам данных и Google Scholar. Во всяком случае в этом будет некая существенная логика. Ссылки: [1] https://snowplow.io/blog/data-discovery/ [2] https://datasetsearch.research.google.com/ [3] medium.com/@ibegti…c981ea9d #opendata #datadiscovery #datasearch #datasets #likbez
ArcGIS Hub

ArcGIS Hub is an easy-to-configure cloud platform that organizes people, data, and tools to accomplish Initiatives and goals.

Arcgis