Мы начинаем новую рубрику - DS/ML интервью!
Наш первый герой - Алибек Утюбаев, лид аналитики в arbuz.kz.
Интервью: teletype.in/@sneddy/alibek_interview
Мы обсудили с Алибеком его путь в сфере, видение развития анализа данных в Казахстане, рекомендации для начинающих и многое другое. А также попытались узнать, кто же такой Алибек Утюбаев вне аналитики данных: кем хотел стать в детстве, что читает, кем гордится и с кем себя ассоциирует.
Корреспондент Pelmeister Media Group - Аяна Мусабаева
Вступить в сообществоYoutubeLinkedinLinkedin Пост
А также мы создали инстаграм страничку:
instagram.com/dsmlkz
Наши ребята из Cerebra (стартап, работающий над автоматизированной диагностикой инсульта) написали статью о сегментации DWI-ASPECTS атласа на одном из режиме МРТ (Diffusion weighted imaging)!
medium.com/@cerebr…0136a419
Спасибо автору статьи Asmina Barkhandinova (@justholmes) за отличный материал!
Пост на linkedin
Будем рады комментариям и замечаниям!
3 декабря в стенах Astana IT University пройдет конференция для разработчиков Google DevFest 2022
Вас ждут интересные мастер классы от специалистов передовых компаний, фирменные подарки от спикеров и новые знакомства
11:00 Открытие
11:15 Адлет Зейнекен (Bakkal Corporation) - How to ace technical interviews
12:00 Самат Курманов (DataArt) - Modern Lakehouse
12:45 Алексей Родионов (Mercury Development, Google Developer Expert) - Developer Experience (DX): Разработчики — тоже люди. GraphQL
13:30 Обеденный перерыв
14:30 Дмитрий Федоров (TargetAI) - Основные подходы оптимизации алгоритмов компьютерного зрения
15:30 Айбек Абилгазым (Sergek Development) -YOLO Object Detection Models: History and State of the Art
16:30 Закрытие
Ждем вас всех 3 декабря в 11 утра по адресу пр Мангилик Ел, С1, Astana IT Universityhttps://go.2gis.com/gkh1s Вход бесплатный, для информации и обсуждения подключайтесь в группу @gdgastana
В подкасте «Код и кофе» вышел выпуск про профессию data-аналитика
В гостях были:
🔹 Дмитрий Казаков, директор по аналитике Kolesa Group
🔹 Анатолий Карпов, CEO Karpov Courses
В подкасте обсудили, что из себя представляет data-направление сегодня:
— Как аналитики помогают бизнесу принимать эффективные решения?
— Зачем идут в профессию?
— Полезная инфа для джунов: грейды, софт скиллы
— Аналитика — это очень дорого?
— Актуально ли понятие data driven сегодня?
Где слушать?
— YouTube
— Яндекс Музыка
— Apple Podcasts
Дата Доклад
Fast Text-Conditional Discrete Denoising on Vector-Quantized Latent Spaces
Источник: arxiv.org/pdf/2211.07292v1.pdf19 ноября 19:00
Место: Наш дискорд сервер discord.gg/6W8F5CdE
Докладчик: Айбек Бекбаев, Machine Learning Engineer, SAP, Senior Mathematics student, Universität Stuttgart
Суть доклада: долгожданное ускорение StableDiffusion (4х выигрыш по параметрам, 8гб vs 2гб).
Пройдемся по VQGAN, а именно codebooks, MaskGIT и SD. Разберем код и попробуем обучить на маленьком датасете, а по окончании докладчик ответит на ваши вопросы
📍Today at 6 pm, we will be joined by Bauyrzhan Aubakir - director of data analytics and machine learning department at Jusan Bank.
On his workshop, Bauyrzhan is going to share his experience in building personalized recommendation systems - the core of modern fintech companies. You are more than welcome to bring your friends and ask questions.
Live-stream (recordings are saved):
https://www.youtube.com/watch?v=CgZu7k6USg8
-More about GDSC NU
telegram channel: @gdsc_nu
Instagram: instagram.com/gdsc.nu
Join us on November 18th at 6 PM✨
Наш брат датабек отпросился в недельный отпуск!
Во время его отсутствия вступить в сообщество можно по временной ссылке:
https://t.me/+o-CHBrel-Kw4YTY6
Большая просьба всем новеньким рассказать пару слов о себе в канале DSML welcome и ознакомиться с правилами сообщества:
http://teletype.in/@sneddy/open_dsmlkz_rules
15 ноября, в 18:00 Макс Маметкулов (@myxik) проведет практический воркшоп по машинному обучению, посвященный тулкиту DeepMind и основам разработки на новейшем фреймворке от Google - JAX.
https://www.youtube.com/watch?v=asP2NntiwRo
Записи сохраняются!
Поздравляем члена нашего сообщества Армана Жармагамбетова (@arreqe) с публикацией на NeurIPS: самой престижной конференции по машинному обучению!
Semi-Supervised Learning with Decision Trees: Graph Laplacian Tree Alternating Optimization
В своей работе ребята предложили новый подход для обучения деревьев решения в ситуациях когда разметка дана чacтично (обычно очень малая часть).
Метод основывается на добавлении графа схожести (между датапойнтами) в функцию потерь для того, чтобы неразмечанные данные использовались в процессе обучения. Однако при этом оптимизационная задача намного усложняется, которая решается через замену переменных и через определенные манипуляции.
Эффективность метода в сравнении с другими подходами было показана на различных бенчмарках (classification, regression).
https://openreview.net/forum?id=cZ41U927n8m
Краткое описание сложившихся на данный момент топиков Жаңа DSML
1) DSML чатАналог старой группы: конфа на темы преимущественно около наук о данных под жесткой модерацией2)ДСМЛ карьераОбсуждение про развитие карьеры3) ДСМЛфутболФэнтези лига, организация живого футбола в Астане и Алматы, обсуждение АПЛ и ЧМ4)ДСМЛ встречи в Астане
Дата завтраки и митапы 5) ДСМЛ встречи в Алматы
6) Дсмл трейдинг
Советы от практикующих трейдеров7) Dsml English clubИнгланд! Америка! Ху из ё президент? Майкл Джордан!
8) DSML ҚазақшаЧат на свободную тему на казахском
9) ДСМЛ вопросыЧат для вопросов в духе стек оверфлоу10) DSML WelcomeАнкеты новеньких11) DSML LeetcodeСовместное решение и обсуждение ежедневных литкод задачек12) DSML Lockhid OriginalАвторский взгляд на жизнь Локхида13) ДСМЛ СтартапыСириоз бизнес14) ДСМЛ ОбразованиеОбразовательные программы, обсуждение вузов и лайфхаки для поступления15) ДСМЛ МемыМэмы16) ДСМЛ РазоблаченияАвторское шоу Рената Алимбекова теперь и в телеграмме!17) DSML PapersОбсуждение последних научных статей18) ДСМЛ РезюмеПрожарка и советы резюмех наших товарищей19) DSML LinkedinКоннектимся и эндорсим друг друга в соответствующей соц сети
20) ДСМЛ КухняФото и рецепты блюд от наших комрадов
Присоединяйтесь!
Все, что от вас требуется: зарегистрироваться в нашем новом боте @databek_bot
10-го ноября прошел чемпионат мира по командному программированию среди студентов ICPC World Finals 2022 Dhaka.
Поздравляем наши команды с успешным выступлением!
Международного университета информационных технологий (МУИТ), обойдя ряд известных мировых вузов. Стоит подметить, что в финале участвовали лучшие 132 команд университетов со всего мира.
1) Команда МУИТ в составе: Сардарбеков Батыр, Баймуканов Абай, Кызырканов Парасат с тренером Куанышбай Айбаром заняла 25 место, обогнав команды таких университетов как МГУ, МФТИ, KAIST, Университет Торонто, Университет Гонконга и других
2) Команда СДУ в составе Темирлан Байболов, Әбу Саид Манап, Алмас Кенес, с тренером Байгариевым Ерболом заняла 111 место.
Поздравляем всех призеров!
А мы напоминаем, что у вас есть возможность присоединиться к нашему сообществу энтузиастов машинного обучения в Казахстане Жана DSML Kazakhstan
На днях мы превратили привычный чат в супергруппу с множеством разных топиков: от карьеры и образования до организации оффлайн встреч и авторского взгляда на жизнь локхида.
Присоединяйтесь!
Все, что от вас требуется: зарегистрироваться в нашем новом боте @databek_bot
19 ноября Google Developer Student Clubs Nazarbayev University проводит МЛФест: 36-часовой дататон с вкусными призами и кейсами от топовых айти-команд Казахстана:
- Smart System Technologies
- Jusan
- Arbuz.kzРегистрация (до 18 ноября):
forms.gle/PYz4vHEQwTts8dmo8
Соревнования в первую очередь студенческие, выпускники же могут попробовать свои силы вне конкурса
inst: instagram.com/gdsc.nu
tg: t.me/gdsc_nu
12 ноября в Алматы пройдет конференция DevFest 2022 от Google Developers Group при поддержке университета Туран 🤩
Будет два тематических блока:
IT Development Track
ML Track
📍Ждем вас по адресу: г. Алматы, ул. Сатпаева 16а, Университет Туран.
Спикеры:
- Lookuut Struchkov - Head of Data Engineering @Indriver
- Qazybek Beken - Data & Analytics Manager @PwC
- Sakura Bissenbayeva - Senior Data Scientist @Bank Centercredit
- Ainel Jaras - Deep Learning Scientist @ForUs Data
- Askar Aituov - DevRel @GoogleОбязательная регистрация gdg.community.dev/events/…aty-2022/
Всем зарегистрировавшимся будет предоставлен доступ на портал Cloud Skills Boost
Научно-технический вебинар Доброкачественное переобучение в моделях, дополненных поиском по хранилищу
8 ноября 13:00 MCK
Спикер: Женисбек Ассылбеков, Назарбаев Университет
Доклад посвящён исследовательским вопросам в области теории глубокого обучения и возможно будет не совсем интересно тем, кто интересуется прикладными задачами.
———————————————————————————————
Теория длинного хвоста Фельдмана (STOC 2020) утверждает, что запоминание редких/атипичных примеров неизбежно при обучении на естественных данных. Несмотря на то, что современные глубокие нейронные сети имеют возможность запоминать (почти) всю обучающую выборку, при обучении с SGD они этого не делают. Напротив, они доброкачественно переобучаются, то есть делают точные прогнозы на новых данных, несмотря на идеальную подгонку к обучающей выборке.
Грубо говоря, все это происходит из-за неявной предвзятости к простоте: SGD предпочитает более простые и надежные модели и использует возможности нейронной сети для запоминания, чтобы подгоняться к нетипичным/редким примерам только в случае необходимости. В то же время специалисты по машинному обучению (особенно в области обработки естественного языка) придумали, как использовать эту возможность для более эффективного обучения: модели, дополненные поиском по хранилищу данных (kNN-LM, RETRO) явно запоминают (часть) обучающей выборки в хранилище и, таким образом, пытаются (частично) снять нагрузку запоминания с нейронной сети. Насколько мне известно, в настоящее время нет теоретического анализа доброкачественного переобучения в таких моделях.
В своем выступлении я предложу несколько возможных исследовательских вопросов, касающихся доброкачественной переобучения в моделях, снабженных поиском по хранилищу, для дальнейшего обсуждения с участниками вебинара.
Регистрация
ntrlab.zoom.us/webinar…lMxhqpnw
Еженедельный Субботний Онлайн Дата Завтрак
Место: Наш дискорд сервер (ссылка https://discord.gg/mRNHNsaG)
Канал: Data Breakfast
Время: 14:00 по времени GMT+6 Астана/Алматы
Приходите, обсудим дата топики, карьеру, просто пообщаемся
Краткое саммари прошлого дата бранча:
Наконец это совершились, Локхид был контентмэйкером, и он рассказал нам всем:
- про своё прошлое, про 90-е, как он начинал кодить с С, Делфи и Бейсика;
- рассказал про 2000-е, где он стал мутить код на sql, и стал динозавром в мире табличных данных;
- рассказал про свои пет проекты, оба весьма интересные, вообщем решил все таки стать ментором, собрать команду в свой пет прожект, начать передавать накопленный опыт следующему поколению, но для начала он хочет написать вменяемое ТЗ, и оформить поиск согласно правилам группы;
- рассказал про то что молодежь не хочет оставаться в КЗ и хочет уехать и зарабатывать кучу бабла в ФААНГе;
Дальше подключился Дулат, и понеслась:
- футбольные агенты, кто они? Бандиты или румыны?
- 4 этажный особняк в Испании и опыт вечеринок за 15КК баксов;
- дата в футбольной аналитике.
Также попутно Андреей высказал мнение что пет прожекты это зергуд, и работодателю очень они интересны, но должны быть правильно оформлены и задокументированны, а если нет то в топку этого работодателя;
Также поделились опытом работы в токсичном коллективе.
Как то так!