Обложка канала

Ivan Begtin

3903 @begtin

I am focused on Open Data, Procurement, e-Government, Open Government and other tech stuff

Ivan Begtin

3 года назад
Открыть в
Пока идёт опрос в котором пока явно лидирует интерес к тому где найти значимые источники данных, подборка каталогов данных для машинного обучения - Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle - Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face - Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS - Azure Open Datasets learn.microsoft.com/en-us/a…-catalog - данные особенно большого объёма на платформе Azure, тоже открытые - OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML - UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения - Radiant ML Hub mlhub.earth - каталог геоданных для машинного обучения Я добавлю также что помимо каталога данных по России и ряде постсоветских стран datacatalogs.ru у нас есть пока непубличный каталог каталогов по всему миру. Но если datacatalogs.ru был сверхдетальным, с долгим поиском не только региональных каталогов данных, но и, например, реестров данных на сайтах городов и муниципалитетов, то каталог международных данных выглядит иначе и включает информацию о ПО на котором он сделан и фокус сбора на каталогах открытых данных, статистических базах, геопорталах с данными (почти все или на Geonetwork, или на ArcGIS Hub), каталогах микроданных и ещё много всего. Итоговый результат - это не только сам каталог, но и постепенное приближение к созданию открытого глобального индекса доступных данных и поисковой системы поверх него. Сам каталог каталогов будет доступен сильно позже, после сборки хотя бы 1000+ таких каталогов, будет собрано. #opendata #datasets #machinelearning
Ivan Begtin

Регулярный опрос с обратной связью. О чём чаще писать на канале? (можно несколько ответов) Больше про открытые данные в мире / Больше про стартапы и развитие технологий работы с данными / Больше технического, примеры, код, гайды / Про открывание/закрывание данных в России / Про цифровизацию государства / Про приватность и её регулирование / Про интересные/большие/значимые источники данных / Про научные данные и научную цифровую инфраструктуру

Telegram