Команда исследователей @JenarosHat@stringersolo в рамках проекта для iict.kz собрали большой новостной датасет в 6'261'953 документов, из казахстанских и российских СМИ, которым они решили поделиться с сообществом!
По каждому документу есть метаданные, включающие заголовок, текст, источник, ссылку, дату и количество просмотров.
Отдельно выложен казахстанский датасет - 1'142'735 документов, с выгруженной матрицей theta, topic-words и 90 столбцами с отнормированными тематическими группами весов (groupeconomy, grouppolitics и т.д.).