Специалист ML в обучение с подкреплением
Решатель (тренажёр) - принятия решений в условиях неопределённости. Сервис тренажёр, обучающий-подсказывая пользователю принимать взвешенное решение в условиях с неполной информацией на примере игры в покер. Задача построить нейросеть (агент) - обучение с подкреплением и обучить алгоритм на реальных данных. Нейросеть (А3С) на вход принимает параметры игровой ситуации, а на выходе наилучшее решение. Для обучения алгоритма нужно создать второго агента - модель на реальных данных (статистика игровых ситуаций) что-то из метода Conditional Random Field CRF – которая использует не только распознавание шаблонов - кластеризация, но и последовательность действий. Метод условных случайных полей обучиться на помеченных данных и выступит в качестве оппонента в игровой среде обучая тем самым алгоритм (А3С) принимать наилучшие решения.
📌 Не определено, Не определеноЗарплата: 💰 По договорённости