В рубрике открытых продуктов для работы с данными, в первую очередь с открытыми данными.
Datalad [1] - библиотека и утилита командной строки с открытым кодом для управления данными по аналогии с управлением кодом, через git и git подобные системы. Использует внутри git и git-anned и позволяет։
- отслеживать изменения в данных
- возвращаться к предыдущим версиям
- сохранять прослеживаемость данных
- обеспечивать полную воспроизводимость
Кроме того умеет создавать статистические html сайты с каталогами данных [2] и сами данные можно скачивать с помощью командной строки и клонировать, по аналогии с клонированием репозиториев кода.
Как можно догадаться, изначально создавался этот движок для работы с научными данными и в примерах его использования чаще фигурируют именно такие наборы данных. Делают его активно с 2015 года, уже 8 лет.
Всё это время он развивался на гранты Германского министерства образования и науки и Национального научного фонда США.
Проект полезный для тех кто работает с исследовательскими данными и публикует данные собственных исследований.
И, в качестве напоминания, аналогичный подход Git для данных также реализуется в таких проектах как DVC (Data version control) [3], Dolt [4] и lakeFS [5].
Ссылки։
[1] https://www.datalad.org/
[2] https://datalad.github.io/datalad-catalog/
[3] https://dvc.org/
[4] https://github.com/dolthub/dolt
[5] https://lakefs.io/
#datatools #opensource #opendata