Ivan Begtin все посты канала

Ivan Begtin

В рубрике как это устроено у них канадский портал публикации микроданных опросов посвящённых COVID-19 CITF DATA PORTAL [1] где CITF расшифровывается как he COVID-19 Immunity Task Force, рабочая группа по иммунитету от COVID. В отличие от порталов открытых данных подобные порталы опросов не бывают открытыми в виду того что содержащиеся в них данные содержат персональные данные опрашиваемых или же поскольку персональные данные могут быть из них восстановлены. Такие ресурсы ещё называют каталогами микроданных, их довольно много в мире. Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения. Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3]. Ссылки: [1] https://portal.citf.mcgill.ca/ [2] https://www.covid19immunitytaskforce.ca [3] https://www.obiba.org #opendata #datacatalogs #microdata #canada

Ivan Begtin

В рубрике интересных наборов данных Astropedia [1] портал геологических и географических данных о планетах Солнечной системы, охватывает все планеты и часть их спутников. Создан и поддерживается USGS совместно с NASA (что показательно, занимается им Геологическая служба США). Данные включают, как растровые карты пригодные для интеграции в ГИС, так и данные справочников и номенклатур, данных измерительных станций и так далее. У каждого набора данных много подробностей и метаданных по контролю качества, тому в какой среде он создан и как его использовать и так далее. А интерфейс каталога включает не только перечень наборов данных, но и навигацию через выбор объекта в солнечной системе. Это хороший пример современного курируемого каталога исследовательских данных по очень специфической теме. Ссылки: [1] https://astrogeology.usgs.gov #opendata #datasets #astonomy #astrogeology

Ivan Begtin

В рубрике интересных наборов данных CC-MAIN-2021-31-PDF-UNTRUNCATED [1] коллекция из 8 миллионов PDF документов обнаруженных с помощью Common Crawl и выгруженных в единую коллекцию. Включает как сами файлы, так и метаданные по каждому файлу, включая геолокацию каждого документа по IP сервера и метаданные извлечённые с помощью pdfinfo. Отличается от Common Crawl тем что документы в полном размере, а в Common Crawl они обрезаны все до 1 мегабайта. На момент создания это крупнейший единый корпус PDF документов с наиболее очевидным применением в задачах по digital forensics (цифровому дознанию). Кстати, для тех кто интересуется, в принципе, данными по этой теме, Digital Corpora [2] это как раз проект с коллекциями документов и данных для обучения цифровому дознанию. Кроме PDF документов там ещё немало всего, дампов устройств, образов дисков, дампов сетевой активности и коллекций файлов. Ссылки: [1] digitalcorpora.org/corpora…runcated [2] https://digitalcorpora.org #opendata #security #forensics #datasets

Ivan Begtin

Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников. В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref. У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH, Ссылки: [1] https://www.base-search.net #opendata #openaccess #openscience #researchdata #datasearch

Ivan Begtin

В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2]. Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям: - IDA Research Data Storage - Etsin Research Dataset Finder - Qvain Research Dataset Description Tool - Digital Preservation Service for Research Data - AVAA Open Data Publishing Platform Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных. Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров. Ссылки: [1] https://www.fairdata.fi/en/ [2] https://www.go-fair.org/fair-principles/ [3] https://research.fi/en/results/datasets #finland #research #openaccess #opendata #openscience

Ivan Begtin

Я как могу сдерживаюсь чтобы не комментировать последние законодательные инициативы в РФ, во первых чтобы не портить себе аппетит, во вторых чтобы запасы иронии не исчерпались. Обращу лишь внимание на законопроекты №346588-8, №346769-8 и №346750-8, запрещающие участие граждан РФ в незарегистрированных в специальном реестре иностранных некоммерческих организациях. Об этом совсем недавно писали в OpenNET [1] и о том что большая часть опенсорс разработок как раз делают НКО зарегистрированные в США и в Европе, пример, Linux Foundation и потому что российские правоприменители могут, с лёгкостью предположить, что эти организации деятельность в России ведут. Я вот лично являюсь до сих пор членом НКО Clarity International посвящённой развитию простого языка [2], если меня ещё не исключили за неуплату членских взносов, конечно. Какова вероятность что она будет зарегистрирована в этом реестре? Нулевая В общем-то в зоне риска все кто хоть какой-то профессиональной деятельностью в мире занимается. А законопроекты эти, как бы намёк, мол валите отсюда и от гражданства отказывайтесь. Другой законопроект, про "запрет использования иностранных почтовых сервисов для регистрации в российских" звучит даже не странно, а очень странно. Что такое иностранные почтовые сервисы? Вот у меня есть почта в зоне .com, она иностранная? А если почтовые сервера в зоне .ru, тогда российская? А если эти почтовые сервера в зоне .ru хостятся в Китае, тогда не российские? Или если у меня почта в зоне .ru, а почтовый сервис от Google для домена, тогда что? И это только сугубо технические вопросы, а есть ещё и вопросы смысловые, в том зачем же всё это нужно? Чувствую что недалёк уже тот момент когда создадут ещё и "реестр разрешений на доступ к иностранным ресурсам", как это уже есть в Китае. Нужно тебе, например, в исследовательских или коммерческих целях поработать с Google или Youtube, изволь запросить разрешение через Госуслуги. Так и будет, так и будет Ссылки: [1] www.opennet.ru/opennew…rt.shtml [2] https://www.clarity-international.org #regulation #russia #nocomments

Госдума РФ утвердила законопроекты, которые могут помешать участию граждан в крупных СПО-проектах

Государственная Дума РФ в третьем, окончательном, чтении приняла законопроекты №346588-8, №346769-8 и №346750-8, запрещающие участие граждан РФ в незарегистрированных в специальном реестре иностранных некоммерческих организациях, и вводящие, среди прочего, уголовную ответственность за организацию деятельности подобных организаций. Закон вступит в силу после того как пройдёт утверждение в Совете федерации и будет подписан президентом. У продвигаемого закона есть очень серьёзный побочный эффект - под его действие потенциально попадает участие во многих международных проектах, занимающихся разработкой свободного программного обеспечения.

www.opennet.ru

Ivan Begtin

В рубрике интересных проектов на данных и около финский стартап Spatineo [1] специализирующийся на продаже продукта и услуг для мониторинга использования гео API таких как открытые точки подключения к WFS, WMS и другим. В 2023 году они вошли в топ 100 геокомпаний мира [2], но интересно не только и не столько это. Spatineo поддерживают каталог из 87700+ точек подключения к API к геоданным по всему миру [3]. По сути это агрегатор геоинтерфейсов и у них же есть полезный гайд о том как заполнять метаданные в своих сервисах [4]. В то же время все что касается данных за пределами Европы и Северной Америки у них не очень. Всего пара точек API в Таиланде, по России почти ничего нет кроме неработающих сервисов wdcb.ru, аналогично по всем постсоветским странам, Китаю и тд. Поэтому сервис и каталог одновременно интересный из-за огромного числа API для мониторинга и содержит огромные пробелы по странам где геосервисов, не меньше. В любом случае этот каталог можно рассматривать как ещё один поисковик по данным, в этом случае по геоданным. Ссылки: [1] https://www.spatineo.com [2] geoawesomeness.com/global-…-edition [3] https://directory.spatineo.com [4] https://www.spatineo.com/service-metadata-guide/ #opendata #geodata #spatial #datasearch

Ivan Begtin

Большое обновление порталов данных в Common Data Index. Теперь их 3692, это в 1.5. раза больше чем было ещё совсем недавно. Выбирая между качеством метаданных и широтой охвата я выбрал широту и в итоге записи в реестре разделены на две ветви: обычные записи и записи с ограниченными метаданными с временными идентификаторами. Для первых почти все метаданные заполнены и курируются, для вторых есть только те метаданные что можно получить автоматически: ссылка, тип ПО, точки подключения к API, язык и страна. По некоторым странам таких временных записей более половины и чаще всего это записи каталогов с геоданными, на базе ArcGIS server или Geoserver. Напомню что реестр доступен на registry.commondata.io А также в реестре огромное обновление всех доступных документированных и недокументированных точек подключения к API, почти для каждой записи все возможные API. Многие каталоги данных одновременно поддерживают многие режимы доступа DCAT, CSW, OAI-PMH и другое. Одна из целей реестра каталогов данных достигнута, охвачены каталоги данных практически всех стран мира и практически всех видов данных и типов каталогов. #opendata #datacatalogs #commondataindex

Ivan Begtin

6 сентября я буду рассказывать про Common Data Index на конференции Smart Data 2023 в Москве. Приходите все кто интересуется глобальным поиском по данным в мире и открытыми данными в частности. Специально для моих подписчиков организаторы предоставили промокод IBegtin2023JRGpc для получения 25% скидки. Я подозреваю что я один из немногих кто будет рассказывать про свой пэт-проект, даже при том что он весьма немалый. Это будет моё первое выступление именно о нём, я буду рассказывать о том как работают поисковые системы на данных, почему они все фасетные, как собрать все каталоги данных, какие они бывают, о недокументированных API и о том как создать большой поисковый индекс. Если успею к конференции, то может быть и интерфейс поиска успею показать. #opendata #datasearch #smartdata #datasets #events

Ivan Begtin

В рубрике как это устроено у них портал геоданных Африки [1] создан на базе ArcGIS Hub и поддерживается компанией Esri. Включает 579 наборов данных [2] и 914 карт [3] А также включает множество подпорталов сообществ по странам, например, Морокко [4], а также всего 11 стран [5] Портал включает данные из OpenStreetMap и иных открытых источников и сфокусирован на обучении и формировании сообщества вокруг продуктов Esri. Это пример когда открытые каталоги данных компании создают для продвижения их коммерческих продуктов добавляя им дополнительную ценность. Все данные можно скачать используя API ArcGIS Hub или с использованием дампов каталога в формате DCAT. Ссылки: [1] https://www.africageoportal.com [2] www.africageoportal.com/search…h [3] www.africageoportal.com/search…h [4] https://morocco.africageoportal.com/ [5] www.africageoportal.com/pages/G…tiatives #opendata #africa #geodata #geospatial

Ivan Begtin

Хотелось бы написать что-то хорошее про доступность геоданных в России, но пока только новость о том что в третьем чтении приняли закон о запрете использования иностранных геоинформационных систем [1]. В основном это, как я понимаю, ESRI ArcGIS, по крайней мере в публичном пространстве есть некоторое количество, около десятка в реестре Common Data Index [2]. Хорошо хоть не запретили бизнесу и университетам. В целом же весь этот поток ограничений, когда любое новое регулирование не разрешает что-то, а запрещает - всё это довольно утомительно. Хотя в реестре российского ПО и много продуктов "российских ГИС", однако в мире, за некоторым исключением, всё иначе. В большинстве стран где не хотят зависеть от "зарубежного" (по факту проприетарного ПО) используют комбинации open source продуктов. Каталоги данных создают на базе Geonetwork, порталы геоданных на базе Geonode, сервера с геоданными на базе Geoserver и геопорталы на множестве продуктов. И только в России и в Китае штампуют геоинформационные системы только для внутреннего применения. P.S. Из большей части "российских ГИС" получить данные сильно сложнее по причине отсутствия стандартных API, вроде ArcGIS REST API, CSW и тд. Так что это тоже в минус открытости Ссылки: [1] https://www.tadviser.ru/a/53581 [2] https://registry.commondata.io/country/RU #geodata #spatialdata #opensource

Госорганам в России запретили использовать зарубежные геоинформсистемы

Геоинформационные системы (также ГИС — географическая информационная система) — системы, предназначенные для сбора, хранения, анализа и графической визуализации пространственных данных и связанной с ними информации о представленных в ГИС объектах. Другими словами, это инструменты, позволяющие пользователям искать, анализировать и редактировать цифровые карты, а также дополнительную информацию об объектах, например высоту здания, адрес, количество жильцов. Каталог ГИС-систем и проектов доступен на TAdviser

TAdviser.ru

Ivan Begtin

Написал текст в рассылку на тему того зачем создаются корпоративные каталоги данных [1]. Это часть скорее теоретическая чем практическая, в неё мало практических примеров, зато много подробностей о том зачем и в какой ситуации компании, в принципе, задумываются о внедрении каталогов данных. В следующих текстах я уже подробнее разберу случаи когда точно не надо усложнять себе жизнь и заводить каталог данных который бы перестал быть актуальным и расскажу о выборе инструментов, там уже много особенностей технологических и разные инструменты решают разные задачи. А ещё точнее с разным качеством решают одни и те же задачи. Ссылки: [1] begtin.substack.com/p/corpo…covery-1 #data #datacatalogs #dataengineering #dataanalytics #compliance

Data discovery в корпоративном секторе. Часть 1. Зачем всё это нужно?

Ничто не делается просто так. Просто нам не всегда известны мотивы. (с) Доктор Хаус

Ivan’s Begtin Newsletter on digital, open and preserved government

Ivan Begtin

В рубрике "как это устроено у них" Oskari [1] продукт с открытым кодом по созданию геопорталов на базе существующих геоданных/геокаталогов, например, каталогов созданных в рамках инициативы INSPIRE. Продукт создан National Land Survey of Finland, государственной организацией в подчинении Министерства сельского и лесного хозяйства Финляндии. Его можно привести в качестве успешной государственной работы над открытым кодом, поскольку проект был создан за счёт госбюджета Финляндии, выделен в открытый код, а теперь находится на инкубации в OS Geo. На базе созданы как минимум 21 геопортал [3], в основном в Финляндии, но и в других странах Северной Европы тоже. Формально в нем не публикуются открытые данные, но активно используются через интеграцию с Geoserver/Geonetwork/Geonode, а также реализовано собственное документированное API с экспортом картографических слоёв. Хотя мне не встречались измерения экономического эффекта, наверняка его можно несложно подсчитать сравнив разницу внедрения Oskari с закупкой корпоративного сервера ArcGIS, к примеру. Ссылки: [1] https://www.oskari.org [2] wiki.osgeo.org/wiki/Os…n_Status [3] https://www.oskari.org/gallery #opensource #geospatial #geodata #data #finland

Ivan Begtin

Я, кстати, не забыл про обещание вернуться к лонгридам и по результатам голосования [1] ближайшей темой напишу про Data discovery в корпоративном секторе, скорее всего до конца недели. Однако тема эта большая и сразу всё не напишешь, можно сделать акцент на поиске данных для собственных продуктов, можно на инвентаризации личных данных, а можно, например, про разницу в инвентаризации данных бизнесом и государством и сквозная тема во всём "зачем всё это нужно". поэтому давайте сделаю второй опрос, он будет следующим сообщением, Ссылки: [1] https://begtin.substack.com/p/fde #readings #blogging #data

Возвращение к лонгридам и выбор тем

Я довольно давно не писал в рассылку, короткие тексты в телеграм канале, лично мне, всегда давались гораздо легче чем регуляные тексты большого/среднего размера. Тем не менее, они тоже необходимы и какое-то количество черновых текстов я заготовил достаточно давно.

Substack

Ivan Begtin

К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1]. В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее. Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом. Для университетов у которых есть такие системы, публикация данных является частью таких систем. Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру. Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5]. Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности. Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований. И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9]. Ссылки: [1] en.wikipedia.org/wiki/Cu…n_system [2] https://eurocris.org/ [3] dspacecris.eurocris.org/cris/ex…ore/dris [4] eurocris.org/service…es-cerif [5] guidelines.openaire.eu/en/late…dex.html [6] https://brcris.ibict.br [7] https://www.skcris.sk/portal/ [8] https://sciencelatvia.lv [9] https://www.cristin.no/ #openaccess #openresearch #opendata #research

Current research information system

A current research information system (CRIS) is a database or other information system to store, manage and exchange contextual metadata for the research activity funded by a research funder or conducted at a research-performing organisation (or aggregation thereof).

Wikipedia

Ivan Begtin

В рубрике интересного чтения про данные и ИИ: - X.AI [1] свежеаносированный стартап Элона Маска по ИИ. Главным образом пока можно судить по составу команды, состав выглядит впечатляюще, посмотрим какие будут результаты. Об этом многие уже написали, так что я не буду вдаваться в подробности, подождём результаты. - Голливудские актёры бастуют против применения образов созданных ИИ [2] по моему их применение неизбежно, посмотрим как долго продлится это противостояние. - LINCE-ZERO [3] свежая языковая модель для испанского языка. Создано стартапом Clibrain, Лицензия Apache 2.0 - OpenMetadata 1.1 [4] новая версия корпоративного каталога данных, из интересного поддержка MongoDB. Надо посмотреть насколько там всё хорошо с этим. - VulcanSQL [5] фреймворк по превращению SQL запросов в API. Интересная штука, полезная для многих задач Ссылки: [1] https://x.ai [2] www.bbc.com/news/en…66196357 [3] https://huggingface.co/clibrain/lince-zero [4] blog.open-metadata.org/openmet…fb603bcf [5] https://github.com/Canner/vulcan-sql #data #datatools #ai #opensource

xAI: Understand the Universe

xAI is a new company founded by Elon Musk that sets out to understand the universe.

x.ai

Ivan Begtin

В рубрике как это работает у них польская платформа для медицинских исследований PPMR [1] включает множество открытых реестров публикаций, тезисов, исследователей, лабораторий, исследовательских подразделений, патентов, инфраструктуры и, конечно же, исследовательских данных коих там 407 наборов данных. Предоставляют API на базе REST API, GraphQL и OAI-PMH. Работает на без ПО Omega-PSIR [2] разработанного Варшавским университетом и используемое более чем 40 научными институтами в Польше. Например, тем же Варшавским университетом. Ссылки: [1] https://ppm.edu.pl [2] https://www.omegapsir.io/ [3] https://repo.pw.edu.pl #opendata #datasets #openaccess #openresearch #poland

Ivan Begtin

Я регулярно пишу про то как устроена публикация научных данных в мире, напомню о том как она сейчас устроена в России. В отличие от многих развитых и развивающихся стран в России отсутствует национальный репозиторий/каталог научных данных по аналогии с Zenodo (EU), ScienceDb (China) и многими другими. Впрочем аналогичная ситуация со всеми результатами научных исследований, статьями, диссертациями, конференциями и т.д., отсутствует централизованная система поиска по ним. В то же время если не у всех, то у многих университетов и исследовательских центров есть порталы научной публикации, как правило они построены на базе DSpace, реже других видах ПО, но почти всегда open source. Ещё реже это какие-то собственные разработки или какие-то отдельные платформы. Относительно недавно я упоминал 4 таких репозитория [1] в котором есть явное указание на наборы данных. Но, конечно, они не единственные. К системе научного раскрытия данных можно отнести систему ЕСИМО [2], но она относится не к институциональным, а скорее к функциональным системам публикации данных. Наборы данных из ЕСИМО плохо индексируются поисковиками, у них отсутствуют уникальные идентификаторы типа handle или DOI, даже просто прямые пермалинки отсутствуют. В то же время, часть научных наборов данных рассеяны и не систематизированы по каталогам публикаций университетов, всё те же инсталляции DSpace, Например, есть вот такой набор данных в репозитории СПбГУ [3] или вот такой [4], их можно найти вперемешку со статьями с ключевым словом "Dataset" [5], но в отдельную коллекцию или фильтр они не выделены. При том что внутри системы они достаточно чётко классифицированы по типу "dc:dataset", но фильтр по типу контента в этом репозитории не выставлен поэтому одним кликом их не отфильтровать. Надо выгружать все меданные с портала и искать уже по ним. А иногда и даже тип контента указан недостаточно. К примеру, публикация в Электронном архиве УГЛТУ [6] включает данные в Excel файле, но тип её "Book" или же публикации данных Тихоокеанского океанологического института им. В.И. Ильичева выделены в специальную коллекцию Research data [7], но сами публикации имеют тип "Article". Всё это о том что, по факту, скрытый пласт публикуемых научных данных в России далеко не нулевой, но из-за того что нет систематизации их публикации, то и находить их сложно. Фактически, делать это можно более-менее точно лишь по типам публикуемых файлов относящихся к данным. В мире такой методической работой по публикации научных данных занимаются, или местные академии наук (Китай), или правительства/министерства науки (ЕС, Аргентина, США и др) и организации вроде Research Data Alliance в части систематизации метаданных и разработки стандартов. И это же, кстати, то что можно отнести к базовой цифровой научной инфраструктуре. Когда, де факто, государства напрямую или через субсидии научным институтам создают инфраструктуру распространения научных знаний, упрощая учёным популяризацию их работ и облегчая доступ к данным сделанных другими. Ссылки: [1] https://t.me/begtin/4912 [2] http://portal.esimo.ru/portal/ [3] https://dspace.spbu.ru/handle/11701/19623 [4] https://dspace.spbu.ru/handle/11701/17279 [5] dspace.spbu.ru/simple-…e-search [6] elar.usfeu.ru/handle/…789/3059 [7] data.poi.dvo.ru/jspui/h…56789/13 #opendata #openresearch #openaccess #russia #datasets

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Реклама

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Ivan Begtin

Реклама

Ivan Begtin

Ivan Begtin

Ivan Begtin