Обложка канала

Nodes and Links

251 @anrlab

Сети и научные исследования: статьи, сетевой анализ и мысли, значимые события и фигуры, красивые сетевые визуализации. Канал Международной лаборатории прикладного сетевого анализа НИУ ВШЭ https://anr.hse.ru/

Nodes and Links

4 года назад
Открыть в
Анализ текста в социальных сетях с помощью метрики TF-IDF Одним из самых распространённых типов данных социальных сетей (Facebook, Vkontakte, Twitter) являются текстовые данные. Помимо определения семантического окраса текстовых сообщений в сетевом анализе стоит задача классификации текстовых данных. Текстовые данные в социальных сетях ограничены по количеству символов, что затрудняет процесс анализа традиционными методами. Такими как интент-анализ - анализ публичной речи для определения скрытых намерений, контент-анализ - анализ текстовой информации для измерения фактов и процессов, графематический анализ - анализ грамматической и лексической структуры текста. Поэтому для анализа текстового контента в соцсетях используется метод k-means с использованием метрики TF-IDF. TF-IDF (term frequency inverse document frequency) – статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес слова пропорционален количеству употребления этого слова в документе и обратно пропорционален частоте употребления слова в других документах. Большой вес в TF-IDF получат слова с высокой частотой в пределах конкретного документа и с низкой частотой употреблений в других документах. Эта метрика часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу. #что_есть_что_в_sna