Обложка канала

Main ML_KZ

Основные посты с чатика про машинное обучение в Казахстане:

Main ML_KZ

5 лет назад
Открыть в
Команда исследователей
@JenarosHat @stringersolo
в рамках проекта для iict.kz собрали большой новостной датасет в 6'261'953 документов, из казахстанских и российских СМИ, которым они решили поделиться с сообществом!

По каждому документу есть метаданные, включающие заголовок, текст, источник, ссылку, дату и количество просмотров.

Отдельно выложен казахстанский датасет - 1'142'735 документов, с выгруженной матрицей theta, topic-words и 90 столбцами с отнормированными тематическими группами весов (groupeconomy, grouppolitics и т.д.).