Main ML_KZ(@main_ds_kz). Разбор задач виртуального собеседования t.me/main_ds_kz/889 flexiquiz.com/SC/N/c247d732-bc8e-42ca-a

Разбор задач виртуального собеседования t.me/main_ds_kz/889 flexiquiz.com/SC/N/c247d732-bc8e-42ca-a9f1-8df8d6ea264c Часть II. 5. Функция активации (1 балл) Какие из перечисленных функций активации могут быть использованы в выходном слое нейронной сети, если мы хотим получить на выходе вероятности n классов p1, p2..pn (n > 2), так чтобы их сумма была равно 1? - Softmax (74%) - ReLu (7%) - Sigmoid (19%) - Tanh (0%) 6. Tf-idf (1 балл) Дана коллекция документов: 1) 'TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса' 2) 'TF (term frequency — частота слова) - это отношение числа вхождений некоторого слова к общему числу слов данного документа 3) 'IDF (inverse document frequency - это обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции' 4) Иными словами, IDF - это логарифм отношения общего числа документов к числу документов с этим словом и 0. Если это же слово не встречалось, tf-idf равно нулю.' 5) 'Мера TF-IDF является произведением двух сомножителей: TF и IDF' Пусть мы привели все слова к нижнему регистру и натренировали tf-idf на данной коллекции. У какого из слов нового документа ''таким образом, tf idf важная статистическая мера документа" самое большое значение tf-idf? Варианты ответов - таким (9%) - образом (0%) - tf (4%) - idf (26%) - важная (9%) - статистическая (39%) - мера (0%) - документа (13%) Solution code snippet

dataset = [
    'TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса',
    'TF (term frequency — частота слова) - это отношение числа вхождений некоторого слова к общему числу слов данного документа',
    'IDF (inverse document frequency - это обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции',
    'Иными словами, IDF - это логарифм отношения общего числа документов к числу документов с этим словом и 0. Если это же слово не встречалось, tf-idf равно нулю.',
    'Мера TF-IDF является произведением двух сомножителей: TF и IDF'
]
test_sentenses = ["таким образом, tf idf важная статистическая мера документа"]

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(lowercase=True)
vectorizer.fit(dataset)
transformed = vectorizer.transform(test_sentenses)
best_word_idx = transformed.argmax()
output = vectorizer.get_feature_names_out()[best_word_idx]
for idx, value in zip(transformed.indices, transformed.data):
    print(f'{vectorizer.get_feature_names_out()[idx]}: {value:.3f}')

Code snippet Output: idf: 0.341 tf: 0.341 документа: 0.405 мера: 0.488 статистическая: 0.605 7. Честная монета (1 балл) Подкидывают 10 честных монет (орел и решка равновероятны). Какова вероятность, что все они упадут орлом? Answer: (0.5) ** 10 = 0.0009766 Остальные задачи ждите в следующих постах