Обложка канала

Main ML_KZ. Страница 5

Основные посты с чатика про машинное обучение в Казахстане:

  • Main ML_KZ

    Kolesa Group 8 октября проведут Kolesa Conf 2022 — масштабнейшую IT-конференцию этой осени! В этом году офлайн-конференция будет платной, но будет доступна бесплатная прямая трансляция. Data — один из 4 потоков конференции. С докладами выступят 10+ крутых специалистов из разных IT-компаний. Среди них: - Анатолий Карпов, СЕО Karpov.Courses, разберёт, как правильно оценивать размер выборки и время проведения теста. И с какими неочевидными трудностями можно столкнуться на этом пути. - Санжар Мырзагалым, Cloud Solution Architect, Data and AI в Microsoft Multi-country CEE, и Павел Ким, Senior Manager Data & Analytics в Air Astana. С темой «Методология построения облачного КХД: кейс Air Astana». Расскажут про архитектуру решения, этапность внедрения, формирование команды и будущее проекта. - Саян Омаров и Абылайхан Турласов, senior data scientist и data scientist Beeline Казахстан, расскажут о том, как они внедряют решение видеоаналитики для своих офисов продаж и не только. - Думан Уватаев, CDO Kaspi Bank, выступит с докладом «NLP Трансформеры: «Мен сізді жақсы түсінемін». Эволюция языковых моделей, основы Bert-ологии — далеко неполный список подтем, которые поднимет Думан. - Никита Бобух, lead data analyst «Рядом», поделится тем, как разрабатывался и внедрялся ненавистный пользователями динамический минимальный чек (surge pricing). 🐺 Спикеры из Kolesa Group: - Ануар Уахитов, data-аналитик, расскажет о том, как используя данные до запуска А/Б-теста, можно увеличить чувствительность теста. Покажет, как применяют эту методику в Kolesa Group и какой результат она даёт. - Асылжан Акынова, data-аналитик, подготовил доклад на тему «Создание синтетической контрольной группы с помощью Propensity Score Matching». - Динара Абдильдинова, тимлид направления качественных исследований, расскажет про UX-исследования в Kolesa Group: что, зачем и для чего. А также покажет работу с продуктом на примере Avtoelon. - Тимур Беримкулов, специалист по машинному обучению, поделится тем, как они в компании делают Machine learning полезным для продукта. И почему это полезно для самих ML-инженеров. - Дина Мукашева, data-аналитик, выступит с темой «Аналитика при запуске нового продукта. Пример маркетплейса запчастей». Регистрация: https://bit.ly/3AM77Ua
    Kolesa Conf 2022

    Самая масштабная IT-конференция в Казахстане

    kolesa-conf.kz
  • Main ML_KZ

    Студенческая организация Ассоциации вычислительной техники при Назарбаев Университете рада сообщить вам о проведении 5го ежегодного Хакатона международного уровня HackNU 2022! HackNU – это марафон для специалистов из разных областей программного обеспечения. У команд будет 36 часов для решения задач от лучших мировых и казахстанских IT компаний. В ежегодном хакатоне HackNU принимают участия студенты из Казахстана, Кыргызстана, Узбекистана, Украины, Южной Кореи, США, Франции, Гонконга, Германии, Испании, Польшы и Саудовской Аравии. Примечательно то что количество участниц-девушек растёт с каждым годом, и это не может не радовать. Спонсорами и партнерами прошлых хакатонов являлись Google, Microsoft, Meta, EPAM, а также BTS Digital, Chocofamily, и другие лидеры казахстанской IT индустрии. В этом году задачи предоставляют Google, EPAM, и Beeline🥳 Участвуя в HackNU вы получите шанс побороться за главный денежный приз, в также бесценный опыт, найдёте единомышленников и испытаете свои знания в программировании. Формы для регистрации доступны на нашем сайте. Вас необходимо зарегистрировать ТОЛЬКО НА ОДНОМ языке из 3 предлагаемых. Для дальнейшей информации про детали регистрации и участия переходите по ссылке на наш сайт🙌 ⏰ДЕДЛАЙН РЕГИСТРАЦИИ: 17.09 📍 Даты: 23-25 сентября, 2022 📍Формат: онлайн и оффлайн 📍Место проведения: Назарбаев Университет, Нур-Султан Подпишитесь на наши социальные сети, чтобы не пропустить обновлений! Instagram: @hacknukz Telegram: https://t.me/HackNUinfo
    2022 INFO

    Официальный информационный канал HackNU 2022 The official channel for HackNU 2022 Main organizer: @lemontartaletka t.me/hacknu <- группа для общения и поиска команды.

    Telegram
  • Main ML_KZ

    Еженедельный Субботний Онлайн Дата Завтрак Место: Наш дискорд сервер (ссылка: https://discord.gg/UGEAK9ss) Канал: Data Breakfast Время: 12:00 по времени GMT+6 Астана/Алматы Приходите, обсудим дата топики, карьеру, просто пообщаемся Краткое саммари прошлого дата бранча - Обсудили каггл, снова - Обсудили обертки торча и последние архитектуры йоло - @myxik рассказал о своем неудачном опыте портирования модели на AWS Elastic Inference - @rokset3 задавал вопросы Амину из Cerebra по тому, как они "измеряли" точность врачей - Не провели авторское шоу Рената Алимбекова Разоблачения Нехороших Людей
  • Реклама

  • Main ML_KZ

    ​​Дата Доклад I - Макс Маметкулов - История ImageNet Делимся видеозаписью первого дсмл доклада, проведенного в минувшее воскресенье на нашем дискорд сервере. Докладчик: Макс Маметкулов, Computer Vision Engineer, Halbestunde, Research Assistant, Nazarbayev University Мы разберем основных победителей соревнования ILSVRC, среди которых были AlexNet, GoogLeNet, VGG, ResNet. Это соревнование вместе со своим датасетом Imagenet, стали одними из основных бенчмарков в компьютерном зрении. Мы посмотрим почему эти архитектуры стали классикой и немного окунемся в историю нейросетевого компьютерного зрения Презентация: https://disk.yandex.com/i/XZMWlpaX8hygmQ Видео: https://youtu.be/ZPIHqoRc1uU
    Макс Маметкулов - История ImageNet Large Scale Visual Recognition Challenge

    Мы разберем основных победителей соревнования ILSVRC, среди которых были AlexNet, GoogLeNet, VGG, ResNet. Это соревнование вместе со своим датасетом Imagenet, стали одними из основных бенчмарков в компьютерном зрении. Мы посмотрим почему эти архитектуры стали классикой и немного окунемся в историю нейросетевого компьютерного зрения Докладчик: Макс Маметкулов, Computer Vision Engineer, Halbestunde, Research Assistant, Nazarbayev University

    YouTube
  • Main ML_KZ

    Еженедельный Субботний Воскресный Онлайн Дата Завтрак Место: Наш дискорд сервер Ссылка: https://discord.gg/aSkvvAmJ Канал: Data Breakfast Время: 12:00 по каз. времени Приходите, обсудим дата топики, карьеру, просто пообщаемся Краткое саммари прошлого дата бранча - Нас посетил Локхид, хоть и молчал, но посетил - @dias_kh рассказал много интересного про магистратуру в Италии и работу, будучи студентом - обсудили важность domain knowledge в решении задач - обсудили последние соревнования на каггле - не провели авторское шоу Рената Алимбекова Разоблачения Нехороших Людей
  • Main ML_KZ

    Начинаем серию докладов по основам компьютерного зрения Тема доклада: Разбор архитектур и особенностей решения победителей ILSVRC Время: 18:00, 28.08 Место: Наш дискорд сервер (https://discord.gg/aSkvvAmJ) Докладчик: Макс Маметкулов, Computer Vision Engineer, Halbestunde, Research Assistant, Nazarbayev University Доклад состоится в нашем дискорде, после доклада Вы сможете задавать вопросы по содержанию презентации. Описание доклада: Мы разберем основных победителей соревнования ILSVRC, среди которых были AlexNet, GoogLeNet, VGG, ResNet. ILSVRC, как и данные для соревнования Imagenet, стали одними из основных бенчмарков в компьютерном зрении. Мы посмотрим почему эти архитектуры стали классикой и немного окунемся в историю нейросетевого компьютерного зрения
    Join the DSMLKZ Games Discord Server!

    Check out the DSMLKZ Games community on Discord - hang out with 123 other members and enjoy free voice and text chat.

    Discord
  • Main ML_KZ

    American Express - Default Prediction Завершилось очередное соревнование на каггле kaggle.com/competitions/amex-default-prediction В рамках этого конкурса нужно было используя анонимизированные факторы клиентов за пол года предсказать его дефолт. В числе призеров было несколько команд с Казахстана: - Серебро и 226 место Команда студентов НУ Corgi lovers [dsmlkz] Даниил Орел и Арман Болатов - Бронза 270 место Команда АФР Тимур Абилкасымов Поздравляем призеров! Бонусом ключевые идеи серебрянного решения: * Collect 1500 features
    * Use CatBoost and Shap values to select 850 of them
    * Build several boostings: CatBoost, XGBoost
    * Build XGBoost Pyramid (1)
    * Add LGBM predictions
    * Combine the aforementioned results using exponential weighting (2)
  • Main ML_KZ

    ​​Пет проект по прогнозирования FPL очков и подбора команды (футбол) Лохид просил, и @alimbekovkz сделал Мы хотим с сделать по проект прогнозирования фэнтази очков АПЛ. Цели проекта: - Оптимизировать состав - Спрогнозировать игроков, которые, наберут высокие баллы на предстоящих игровых неделях - Анализировать игроков и команды, используя xG, тепловые карты игроков и т.д. Кто может участвовать? Все желающие Что нужно делать? Парсить данные, визуализировать, придумывать как оценивать игроков Что нужно сделать? Написать @alimbekovkz, он создаст группу, чатик, даст доступ в MIRO и т.д. DSML Футбол: https://t.me/dsml_football MIRO доска с идеями проекта: miro.com/app/boa…OTowBr4=
  • Main ML_KZ

    Еженедельный Субботний Онлайн Дата Завтрак Место: Наш дискорд сервер Ссылка: https://discord.gg/cdDuACus Канал: Data Breakfast Время: 12:00 по каз. времени Приходите, обсудим дата топики, карьеру, просто пообщаемся Краткое саммари прошлого дата бранча - Обсудили надобность магистратуры в ДС: зачем она нужна, кто с какой целью туда идет и что хочет получить на выходе? - Обсудили облака и где работать лучше всех в облаках - Разговаривали про местных агашек и ДС: почему им тяжело платить ДСерам хорошо и причем здесь студентики - Обсудили поиск вакансий на удаленку - Обсудили налоги в Казахстане по сравнению с другими странами - Выпуск авторского шоу Рената Алимбекова: разоблачения нехороших людей
    Join the DSMLKZ Games Discord Server!

    Check out the DSMLKZ Games community on Discord - hang out with 98 other members and enjoy free voice and text chat.

    Discord
  • Main ML_KZ

    DSML Circle Jerk Я думаю, вы знаете, что делать: - добавлять друг друга в линкедине и эндорсить ds-related скиллы - добавлять друг друга в инстаграмме и ставить друг другу огоньки в историях - знакомиться вживую, если живете друг с другом в одном городе и пить пиво - кидать друг другу донаты в онлифанс docs.google.com/spreadsheets/d/1FHj4ihO0LcproYK4gfOIDsVzyie5lg5rSS-jUaW0Mnk/edit?usp=sharing
  • Main ML_KZ

    Kolesa Group 8 октября проведут Kolesa Conf 2022 — масштабнейшую IT-конференцию этой осени! В этом году офлайн-конференция будет платной, но будет доступна бесплатная прямая трансляция. Data — один из 4 потоков конференции. С докладами выступят 10+ крутых специалистов из разных IT-компаний. Среди них: • Data-аналитики Kolesa Group Ануар Уахитов, Асылжан Акынова и Дина Мукашева расскажут про: - то, как использовать данные для увеличения чувствительности A/B-теста; - создание синтетической контрольной группы с помощью Propensity Score Matching; - аналитику при запуске нового продукта. • CDO Kaspi Bank Думан Уватаев выступит с докладом «NLP Трансформеры: «Мен сізді жақсы түсінемін». • Data Science teem lead и Project Manager Beeline Казахстан Саян Омаров и Мерей Балгабаев поделятся кейсом, как они внедряют решение видеоаналитики для своих офисов продаж. Регистрация https://bit.ly/3QIszzJ
    Kolesa Conf 2022

    Самая масштабная IT-конференция в Казахстане

    kolesa-conf.kz
  • Main ML_KZ

    Еженедельный Субботний Онлайн Дата Завтрак Место: Наш дискорд сервер Ссылка: discord.gg/dMuEsU3h Канал: Data Breakfast Время: 12:00 по каз. времени Приходите, обсудим дата топики, карьеру, просто пообщаемся Краткое саммари прошлого дата бранча - Макс @myxik вновь рассказывал почему NU не оч - обсудили с кем стоит сравнивать с NU: с другими универами или с министерствами - обсудили элитарность казахстанских школ - обсудили сокращения в бтсд - выпуск авторского шоу Рената Алимбекова разоблачение нехороших людей
  • Main ML_KZ

    Виртуальное собеседование на позицию ML Engineer Решение. Часть 2. 3.2) Алгоритмы синьор (с неким @sneddy) В первом случае нам заранее известно произведение скольких чисел нужно хранить. Поэтому в качестве хранилища будем использовать очередь размера n. После каждой операции пут в случае превышения очередью размера n мы будем выкидывать ее первое значение. Также будем хранить текущее ненулевое произведение последних n чисел, которое обновляется после каждой операции put (умножить на новое число и поделить на первое число в очереди если она переполнилась). Тогда для выполнения гет нам нужно лишь возвращать это текущее произведение. Самое популярное пространство для бага - не учесть что логика немного ломается в случае добавления нуля. Как вариант можно хранить отдельно количество нулей в очереди и если они есть в get отдавать 0, а как только они заканчиваются - выдавать текущее ненулевое произведение Follow-up: В этом случае придется хранить всё, вопрос только в каком виде. Как вариант можно хранить в обычном листе кумулятивные произведения от 1 элемента массива до текущего. В таком случае чтобы ответить на запрос get(self, k) достаточно выдать отношение кумулятивного произведения последнего элемента и -(k+1)-го. Также в случае хранения кумулятивных произведений возникает опасность численного переполнения. Она может быть решена с некоторой вычислительной ошибкой хранением не самих произведений чисел а его логарифма Тогда кумулятивные произведения перейдут в кумулятивные суммы логарифмов, а отношение произведений - к разности сумм. Код последний задачи я не приложил - но надеюсь что моего объяснения будет достаточно, чтобы внимательный читатель мог его воспроизвести
  • Main ML_KZ

    Виртуальное собеседование на позицию ML Engineer Решение. Часть 1. 1) Комбинаторика и ТВ@m1ckyro5a) 1.1. посчитайте вероятность того, что среди 5 подбрасываний честной монетки будет ровно 1 орел. Решение: вероятность наступления 5 независимых событий - их произведение то есть (1/2)^5 1.2 посчитайте вероятность того, что первый орел выпадет на четном подбрасывании Решение: - вероятность 2го орла = вероятность 1й решка а второй орел = (1/2)^2 - вероятность 2k-го орла - (1/2)^(2k) = (1/4)^k - вероятность четного орла: сумма геометрической прогрессии со знаменателем 1/4: a_0 / (1 - d) = (1/4) / (1 - 1/4) = 1/3 1.3 оцените вероятность что сумма чисел после броска 2 игральных кубиков будет 5 Решение: Подходящие исходы: <1,4>; <2,3>; <3,2>;<4,1> Всего исходов: 6*6. Ответ: 4/36=1/9 1.4 Оценка максимального правдоподобия Решение от @sultanyaril L(a) = a / (3 ^ a) * a / (4 ^ a) * a / (5 ^ a) = a^3 / 60^a; lnL(a) = lna^3 - ln60^a = 3 lna - a ln60 dlnL(a)/da = 3/a - ln60 = 0 -> a = 3/ln60 = 0.73272 2) Метрики и ТВ@m1ckyro5a) Задача на формулу Байеса, условия были стырены из блога Дъяконова - там же можно найти и решение. В вопросе о метриках хотелось бы услышать вопросы о балансе между False Positive и False Negative ошибках. Например если лечение очень дорогое и болезненное то FP ошибки оч нежелательны, если же ход болезни очень тяжел - то FN. Самый популярный ошибочный ответ - AUC ROC который совсем не подходит потому что данная метрика может быть расчитана когда модель выдает некоторую вероятность или скор. В случае же бинарного предикта как в нашем случае (есть болезнь или нет) AUC ROC не имеет особого смысла. Подходят любые вариации ф-скора скошенного в сторону либо пресижена либо рекола в зависимости от ответов на наводящие вопросы выше. 3.1) Алгоритмы джуниор-миддл (с неким @sneddy) Есть 2 строки, посчитайте сколько минимум символов нужно добавить или убавить, чтобы они стали анаграммами Решение: По сути задание на внимательность, знание структуры данных хэш и синтаксиса питона В целом хотелось увидеть любое верное решение эффективнее чем через лист за квадрат Например забить обе строки в dict отображающий символ в каунт, затем вычесть из каждого уникального каунта первого дикта каунт из второго. Популярная ошибка: не учесть что уникальный символ может встретиться во второй строке, но не встретиться в первой. Если использовать Counter задача превратащается в однострочник - поэтому мы просили не использовать ничего из библиотеки collections
    from typing import Dict
    def build_dict(input_str: str) -> Dict[str, int]:
        output_dict = {}
        for elem in input_str:
            if elem not in output_dict:
                output_dict[elem] = 0
            output_dict[elem] += 1
        return output_dict
    def anagram_distance(s1: str, s2: str) -> int:
        d1 = build_dict(s1)
        d2 = build_dict(s2)
        diff = 0
        for elem, count in d1.items():
            diff += abs(count - d2.get(elem, 0))
        for elem, count in d2.items():
            if elem not in d1:
                 diff += count
         return diff
  • Main ML_KZ

    Виртуальное собеседование на позицию ML Engineer Спасибо всем, кто поучаствовал в нашем 1 этапе виртуального собеседования. Попробовали свои силы 70 человек, из которых 20 его успешно преодолели! Я надеюсь это было интересно и хоть немного позновательно. Дальнейшие туры предполагают больший акцент на беседу, поэтому больше такого интерактива как в первом туре у нас не получится. Тем не менее, я подготовил пул задач, используемых во время очного этапа собеседования (60-90 минут). Спустя неделю или две я приведу их решения, а пока можете взять листочек с бумагой и вновь проверить свои силы! 1) Комбинаторика и ТВ@m1ckyro5a) - посчитайте вероятность того, что среди 5 подбрасываний честной монетки будет ровно 1 орел. - посчитайте вероятность того, что первый орел выпадет на четном подбрасывании - оцените вероятность что сумма чисел после броска 2 игральных кубиков будет 5 - Оценка максимального правдоподобия: Дано распределение
    X = alpha / x^alpha
    
    и наблюдения 3,4,5 Оцените параметр альфа методом максимального правдоподобия 2) Метрики и ТВ@m1ckyro5a) - На острове буйствует загадочный вирус, которым болеют 10% населения острова. Местные предприниматели подготовили прибор, который с ошибается с 10% вероятностью (как для болеющих - так и для не болеющих). Какая вероятность того, что пациент реально болен, если прибор показал положительный результат? - Какие метрики качества вы бы предложили для оценки эффективности данного прибора? 3.1) Алгоритмы джуниор-миддл (с неким @sneddy) Есть 2 строки, посчитайте сколько минимум символов нужно добавить или убавить, чтобы они стали анаграммами На выходе ожидается функция, принимающая 2 строки и выдающая ответ за разумные асимптотики по времени 3.2) Алгоритмы синьор (с неким @sneddy) Напишите класс, который при инициализации получает число n и поддерживает команды - put(self, a:float) -> None - добавить число в структуру - get() -> float - выдать текущее произведение последних n добавленных чисел Follow-up: Напишите класс, который поддерживает команды - put(self, a:float) -> None - добавить число в структуру - get(self, k) -> float - выдать текущее произведение последних k добавленных чисел На выходе ожидаются структуры с разумными асимптотиками на время и память, корректно работающие на различных корнер кейсах Решения в комментариях приветствуются! Но большая просьба не забыть поставить спойлер: - Ctrl + Shift + P - или правой кнопкой мыши Formatting -> Spoiler) Обещаю давать фидбек в течение суток)
  • Реклама

  • Main ML_KZ

    qazaq елине +1 дата саентист @m1ckyro5a
  • Main ML_KZ

    Публикуем результаты нашего маленького исследования про лучший технический вуз Казахстана в 2022 году по версии сообщества Дата Саенс Казахстан. Напоминаю, что исследование проходило в 3 этапа: 1 этап. Сравнение университетов по отзывов самих студентов и выпускников на базе 180 отзывов с которыми можно ознакомиться по ссылке ниже: docs.google.com/spreads…z7M/edit 2 этап. Открытое анонимное голосование, где респондентам предлагалось выбрать лучший университет на основании 5 случайных отзывов (не зная самих универов) 3 этап Открытое неанонимное голосование (1740 голосов) Помимо финальных итогов снова приложил таблицу 1го этапа, который как по мне содержит большее количество инсайтов
  • Main ML_KZ

    Лучший технический ВУЗ Казахстана по версии DSML kz Этап 2 - Анонимные отзывы (часть 1) Процедура - выбираю с каждого университета по 5 случайных отзывов (random seed 42) - информация не проверялась, авторская грамматика сохранена Университет 1 - МУИТ (5 место) Университет 2 - НУ (1 место) Университет 3 - КБТУ (3 место) Университет 4 - КФ МГУ (4 место) Университет 5 - Astana IT University (6 место) Университет 6 - СДУ (2 место) Сырые данные по отзывам (180 отзывов): docs.google.com/spreads…z7M/edit