Разбор задач виртуального собеседованияt.me/main_ds_kz/889flexiquiz.com/SC/N/c247d732-bc8e-42ca-a9f1-8df8d6ea264cЧасть II.
5. Функция активации (1 балл)
Какие из перечисленных функций активации могут быть использованы в выходном слое нейронной сети, если мы хотим получить на выходе вероятности n классов p1, p2..pn (n > 2), так чтобы их сумма была равно 1?
- Softmax (74%)
- ReLu (7%)
- Sigmoid (19%)
- Tanh (0%)
6. Tf-idf (1 балл)
Дана коллекция документов:
1) 'TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса'
2) 'TF (term frequency — частота слова) - это отношение числа вхождений некоторого
слова к общему числу слов данного документа
3) 'IDF (inverse document frequency - это обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции'
4) Иными словами, IDF - это логарифм отношения общего числа документов к числу документов с этим словом и 0. Если это же слово не встречалось, tf-idf равно нулю.'
5) 'Мера TF-IDF является произведением двух сомножителей: TF и IDF'
Пусть мы привели все слова к нижнему регистру и натренировали tf-idf на данной коллекции.
У какого из слов нового документа
''таким образом, tf idf важная статистическая мера документа"
самое большое значение tf-idf?
Варианты ответов
- таким (9%)
- образом (0%)
- tf (4%)
- idf (26%)
- важная (9%)
- статистическая (39%)
- мера (0%)
- документа (13%)
Solution code snippet
dataset = [
'TF-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса',
'TF (term frequency — частота слова) - это отношение числа вхождений некоторого слова к общему числу слов данного документа',
'IDF (inverse document frequency - это обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции',
'Иными словами, IDF - это логарифм отношения общего числа документов к числу документов с этим словом и 0. Если это же слово не встречалось, tf-idf равно нулю.',
'Мера TF-IDF является произведением двух сомножителей: TF и IDF'
]
test_sentenses = ["таким образом, tf idf важная статистическая мера документа"]
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(lowercase=True)
vectorizer.fit(dataset)
transformed = vectorizer.transform(test_sentenses)
best_word_idx = transformed.argmax()
output = vectorizer.get_feature_names_out()[best_word_idx]
for idx, value in zip(transformed.indices, transformed.data):
print(f'{vectorizer.get_feature_names_out()[idx]}: {value:.3f}')
Code snippet Output:
idf: 0.341
tf: 0.341
документа: 0.405
мера: 0.488
статистическая: 0.605
7. Честная монета (1 балл)
Подкидывают 10 честных монет (орел и решка равновероятны).
Какова вероятность, что все они упадут орлом?
Answer: (0.5) ** 10 = 0.0009766
Остальные задачи ждите в следующих постах