Где искать большие данные для исследований? Машинного обучения? Тренировки алгоритмов?
Источников много, я упомяну сейчас те о которых ранее не писал:
- Academic Torrentshttps://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения
- Archive.org datasetshttps://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма
- Hyper.ai Datasetshttps://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы
- Toloka Datasetshttps://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт
- The SpaceNet Datasetshttps://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга
- Granular Datasetshttps://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков
- Наборы данных Центра диагностики и телемедициныhttps://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы
#opendata #datasets #data #machinelearning
A distributed system for sharing enormous datasets - for researchers, by researchers. The result is a scalable, secure, and fault-tolerant repository for data, with blazing fast download speeds.