Обложка канала

Ivan Begtin

3903 @begtin

I am focused on Open Data, Procurement, e-Government, Open Government and other tech stuff

Ivan Begtin

3 года назад
Открыть в
В рубрике открытых продуктов для работы с данными, в первую очередь с открытыми данными. Datalad [1] - библиотека и утилита командной строки с открытым кодом для управления данными по аналогии с управлением кодом, через git и git подобные системы. Использует внутри git и git-anned и позволяет։ - отслеживать изменения в данных - возвращаться к предыдущим версиям - сохранять прослеживаемость данных - обеспечивать полную воспроизводимость Кроме того умеет создавать статистические html сайты с каталогами данных [2] и сами данные можно скачивать с помощью командной строки и клонировать, по аналогии с клонированием репозиториев кода. Как можно догадаться, изначально создавался этот движок для работы с научными данными и в примерах его использования чаще фигурируют именно такие наборы данных. Делают его активно с 2015 года, уже 8 лет. Всё это время он развивался на гранты Германского министерства образования и науки и Национального научного фонда США. Проект полезный для тех кто работает с исследовательскими данными и публикует данные собственных исследований. И, в качестве напоминания, аналогичный подход Git для данных также реализуется в таких проектах как DVC (Data version control) [3], Dolt [4] и lakeFS [5]. Ссылки։ [1] https://www.datalad.org/ [2] https://datalad.github.io/datalad-catalog/ [3] https://dvc.org/ [4] https://github.com/dolthub/dolt [5] https://lakefs.io/ #datatools #opensource #opendata
DataLad – DataLad

www.datalad.org