Обложка канала

Main ML_KZ

Основные посты с чатика про машинное обучение в Казахстане:

Main ML_KZ

4 года назад
Открыть в
Разбор задач виртуального собеседования t.me/main_ds_kz/889 flexiquiz.com/SC/N/c247d732-bc8e-42ca-a9f1-8df8d6ea264c Часть II. 5. Функция активации (1 балл) Какие из перечисленных функций активации могут быть использованы в выходном слое нейронной сети, если мы хотим получить на выходе вероятности n классов p1, p2..pn (n > 2), так чтобы их сумма была равно 1? - Softmax (74%) - ReLu (7%) - Sigmoid (19%) - Tanh (0%) 6. Tf-idf (1 балл) Дана коллекция документов: 1) 'TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса' 2) 'TF (term frequency — частота слова) - это отношение числа вхождений некоторого слова к общему числу слов данного документа 3) 'IDF (inverse document frequency - это обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции' 4) Иными словами, IDF - это логарифм отношения общего числа документов к числу документов с этим словом и 0. Если это же слово не встречалось, tf-idf равно нулю.' 5) 'Мера TF-IDF является произведением двух сомножителей: TF и IDF' Пусть мы привели все слова к нижнему регистру и натренировали tf-idf на данной коллекции. У какого из слов нового документа ''таким образом, tf idf важная статистическая мера документа" самое большое значение tf-idf? Варианты ответов - таким (9%) - образом (0%) - tf (4%) - idf (26%) - важная (9%) - статистическая (39%) - мера (0%) - документа (13%) Solution code snippet dataset = [ 'TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса', 'TF (term frequency — частота слова) - это отношение числа вхождений некоторого слова к общему числу слов данного документа', 'IDF (inverse document frequency - это обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции', 'Иными словами, IDF - это логарифм отношения общего числа документов к числу документов с этим словом и 0. Если это же слово не встречалось, tf-idf равно нулю.', 'Мера TF-IDF является произведением двух сомножителей: TF и IDF' ] test_sentenses = ["таким образом, tf idf важная статистическая мера документа"] from sklearn.feature_extraction.text import TfidfVectorizer vectorizer = TfidfVectorizer(lowercase=True) vectorizer.fit(dataset) transformed = vectorizer.transform(test_sentenses) best_word_idx = transformed.argmax() output = vectorizer.get_feature_names_out()[best_word_idx] for idx, value in zip(transformed.indices, transformed.data): print(f'{vectorizer.get_feature_names_out()[idx]}: {value:.3f}') Code snippet Output: idf: 0.341 tf: 0.341 документа: 0.405 мера: 0.488 статистическая: 0.605 7. Честная монета (1 балл) Подкидывают 10 честных монет (орел и решка равновероятны). Какова вероятность, что все они упадут орлом? Answer: (0.5) ** 10 = 0.0009766 Остальные задачи ждите в следующих постах