- Productionizing ML with ML Ops and Cloud AI - Superpower your Android apps with ML: Android 11 - Video Description Generation Intro to Kubernetes - Practical application of the computer vision technologies - Semantic Search on GCP with the Weaviate vector search engine - Train TensorFlow Models on GCP - Work Smarter with Chat and Conversational AI
Подключайтесь, мы начинаем в 12:00 по Казахстанскому времени
Беседа с Тогжан Султан, data scientist’ом RationalAi, выпускницей Columbia University (MS) и Nazarbayev University (BSc) об обучении на магистратуре data science.
Если вы заинтересованы в получении степени магистра в топовом университете, как Columbia University in New-York City (#3 in National Universities), и желаете узнать больше о работе в Нью-Йорке, добро пожаловать на нашу беседу.
Если у вас есть вопросы к Тогжан, не стесняйтесь задавать ей их тут.
📆Четверг, 15-ое октября. ⏱18:00 📍Zoom: ссылка 🔉Язык: русский
Беседа на канале Leadershipkz, на которой мы обсудили, какие бывают специальности в сфере анализа данных, чем там можно заниматься и на что нужно акцентировать внимание, чтобы строить карьеру в данном направлении.
Смотреть лучше на скорости 1.25 :)
Что вы узнаете из этого видео: ✔️кратко о методах машинного обучения и анализа данных ✔️обзор сфер применения этого в продуктах и маркетинге ✔️разница между AI в стартапе и AI в корпорации ✔️краткая история развития AI ✔️компании, в которых мечтает работать каждый датасайнтист ✔️кем можно работать в анализе данных ✔️что такое Kaggle и как его правильно готовить ✔️как успешно пройти собеседование на датасайнтиста
Памятка на случай, если кто-то потерял наши телеграм чаты
В данный момент в основной чат для обсуждений можно попасть по приглашению другого участника сообщества. Также в него можно вступить по кнопке Discussion в описании этого канала
Более того, вы можете вступить в нашу ламповую группу с более неформальным общением. Чтобы попасть туда нужно ответить на несколько вопросов от нашего уважаемого бота @databek_bot
Поздравляем команду AirData.kz c успешным запуском проекта, направленного на анализ и мониторинг динамики загрязнения воздуха в г.Алматы.
Работа над этой инициативой велась командой волонтеров, которые хотят держать руку на пульсе одной из самых больших проблем города и делиться информацией с общественностью.
Это важный шаг по направлению к демократизации государственных данных, и мы очень надеемся, что тенденция к этому продолжится.
Если вам нужен доступ к данным по концентрации PM2.5 в г.Алматы, пожалуйста, напишите на [email protected], и вам обязательно его предоставят!
В эту субботу, 26.09.2020 в 18:00 Ануар Аймолдин @csneddy побеседует с вами о карьере в анализе данных.
Инженер искусственного интеллекта, также является выпускником Школы Анализа Данных от компании Яндекс, обладателем звания kaggle master на одноименной платформе и основателем сообщества Data Science Kazakhstan. ⠀ Работает в healthcare команде из Австралии, которая используя современные методы глубинного обучения пытается построить доступный широким массам инструмент для анализа рентгеновских снимков грудной клетки, магнитно резонансной томографии, маммографии и прочих мед. снимков ⠀ Мы обсудим какие бывают специальности в сфере анализа данных, чем там можно заниматься, на что нужно акцентировать внимание, чтобы строить карьеру в этой сфере, а также попробуем трезво оценить плюсы и минусы данного направления. ⠀ Регистрация:docs.google.com/forms/d/e/1FAIpQLSdYFY6cvCwh4RM5EDQPza-MmFId0K9Gx8PSKd8Q0gh0Tal-iA/viewform Пост на Leadership: instagram.com/p/CFZmTkOHqND/?igshid=1hlwoo1jj9ogm
Назарбаев Университет опубликовал в открытом доступе Казахский Речевой Датасет (Kazakh Speech Corpus, KSC), включающий около 335 часов размеченного материала высокого качества.
Беседа с Павлом Космынином, руководителем группы по Data Science в BI Innovations о различных ветвях в Data Science.
Data Science – обширный термин, включающий в себя несколько специальностей, таких как: machine learning engineer, data engineer, data analyst и т.п. Если вы хотите вступить в ряды data scientist’ов, вам нужно ознакомиться, какая специальность подходит именно вам. Наш уважаемый гость, Павел Космынин, готов рассказать обо всех нюансах каждой из ветви data science.
Запись беседы о процессе собеседования в дата саинс с Дарханом Нурахметовым, руководителем отдела аналитики в X5 Retail Group, опубликована на YouTube.
Видео и все сопутствующие ресурсы доступны по ссылке.
DataSci - студенческий клуб в Назарбаев Университете, продвигающий data science среди молодежи путем организации различных лекций, соревнований, подготовительных сессий и т.д.
И мы рады пригласить вас на встречу по техническому интервью в data science! Наш гость - Дархан Нурахметов, PhD в Data Analysis, глава отдела анализа данных в X5 Retail Group. Дархан специализируется на статистике, анализе данных, машинном обучении и психометрике, имея 10-летний опыт в организациях, как Национальный Центр Тестирования, Корпорация "Цесна", АОО Назарбаев Интеллектуальные Школы, и т.п.
Наш гость расскажет о своем опыте прохождения и проведения интервью, а именно о вопросах и задачах, встречающихся на них, и о том как правильно отвечать.
Задавайте вопросы заранее тут, они будут анонсированы во время лекции.
Анонс: Наш клуб будет проводить сессии по подготовке к техническим интервью каждые две недели, тема каждой сессии будет специфичная. Следите за новостями!
Нужно уметь классический, неспециализированный ML. Надо знать всё что преподают в cs229 хотя бы поверхностно. Казалось бы, зачем спрашивать про классические мл в вижн, если везде софтмакс? Да всё просто. Ничто так не выдает челоека, который копирует готовые сеточки из гитхаба и ни в чём не соображает, чем незнание классического ML. Такой человек потом будет городить нейронку там, где нужна линейная модель с матрицей 5x2.
Что это знчит? Заботайте что такое bias-variance tradeoff, что делают SVM, как работает линейная регрессия и что такое ridge regression, как строятся decision trees и основы статистики, нужные для этого, ну то есть всё это вот базовое. Потренируйтесь это делать на небольших задачках или проектах. Это займёт пару дней, но это важно. Не только для собеседований, но и вообще в жизни.
Ну и что было для меня неожиданным, когда я тольно начинал работать, что надо иметь представление о классическом Computer Vision. В половине компаний также спрашивали что-то базовое из этого, спросил бы и я. Например, вы читали про Fast R-CNN, а знаете, что такое Selective Search который в статье упоминается? И я долгое время не знал, а потом посмотрел--интересный же алгоритм. Да хоть бы просто закодить конволюшн или edge detection сможете?
Ну и конечно, в компьютр вижне кандидаты должны не только знать, но и уметь диплёрнинг. В чём отличие?
Практика диплёрнинга всё понятно, нужно понять, вы кодили модели или просто слышали о них. Я бы задавал такие вопросы: - Как вы обычно выбираете оптимайзер для CV модели? - Как измеряется качество детекторов объектов в литературе? Вы упомянули AP@k, а что это такое? В чём плюсы и минусы использования этого как метрики? - У меня модель, где loss на training set не уменьшается, а наоборот растёт; что делать? А если прыгает то вверх то вниз, но в основном идёт вниз? - Когда нужно увеличивать количество фильтров в слое CNN ?
Теория диплёрнинга (чтобы понять, сможете вы что-то придумать своё или только копи-пастить из статей можете) - Что будет с натренированной моделью, если все веса поделить на два? - Представьте, что при тренировке MLP одна из фич всегда равна нулю; чему будут равны соответствующие веса первого уровня? - В CNN практически не применяют L2 регуляризацию на веса convolution layers; почему? А что применяют? - Что такое Layer Normalization и зачем оно?
Про теорию диплёрнинга спрашивают меньше, но часто неумение на это ответить очень печалит собеседующего. Чаще всего эти вопросы возникают "внезапно" когда что-нибудь такое вскользь упоминаешь, а интервьюер говорит "ага, а зачем этот модуль / что будет если это повертеть / а когда это не надо делать?"
"Насколько вы в теме" ака Domain Knowledge. Опять же, вопрос вы просто попроходили курсы или вы работаете как профессионал (в т.ч. относитесь к персональным проектам профессионально, а-ля доводите до конца и проводите эксперименты). Вопросы из серии: - Расскажите про какой-нибудь интересный проект, который вы задеплоили. И дальше спрашивать про детали. - Расскажите про метод из своей самой любимой статьи которую прочитали за последние несколько недель, не подглядывая? - Какой ваш последний эксперимент, который вы притащили из литературы и он поначалу не получился? что вы сделали, чтобы довести это до успеха? какие сделали выводы?
Разумеется, задавая такие вопросы, я бы попросил рассказать что-то имеющее отношение к предметной области, а не скажем инфраструктурые проекты.
Leadership. Нет, это не умение составлять документы и поучать жизни джуниоров. Это умение придумывать проекты. В FANG, придумывать проекты требуется только от старших (а то и от штатных) инженеров. Но в сэлф-драйвинге и для мидлов похожие требования. Поэтому какая-нибудь демонстрация того, что вы это умеете делать систематично, нужна. Публикации в этом помогают. Но лучше задумайтесь, был ли проект, который вы придумали, и он получился? Напишите в резюме. Подумайте о том, как это пришло вам в голову и сформулируйте это словами и запомните. Пригодится, и не только с поиске работы, но и вообще в жизни.
Примечание: нарушу свое же правило о локальности контента отрывком из статьи камрада sunset на ods про собеседования Computer Vision Engineer ================================== Взгляд со стороны работодателя
Чтобы понять, что спрашивают на собеседовании на компьютр вижн инженера, нужно сначала понять какие навыки нужны от вас работодателю.
Во-первых, от кандидата требуется знание что такое machine learning в теории. Люди, которые везде пихают нейросетки потому что ничего другого не знают, не принесут большой пользы бизнесу. В основном потому, что не смогут сформулировать задачу и смоделировать мир. "Модель" - это ведь просто преобразование окружающей действительности в математическую формулировку; уметь это делать важнее, чем знать сколько слоёв в VGG.
Во-вторых, понятно, что нужны навыки, специализированные в какую-то часть стэка. Если собеседуетесь за диплёрнинг, то нужны навыки диплёрнинга. Если в вижн, то это segmentation, detection, итп. Если в Lidar, то методы инференс на point clouds. Ну итп. Вот здесь есть хороший обзор того, что используется в Perception стэке (см. секцию V [https://arxiv.org/pdf/1906.05113.pdf]) Идеальный кандидат будет знать, какие основные методы решения соответствующих задач и будет уметь объяснить детали методов, особенно в какой-то одной части где они эксперт. Кандидат также сможет объяснить преимущества и недостатки методов, так как на работе нужно будет уметь выбрать, какую модель строить. Это как бы понятно.
Но секрет, который все знают и боятся признаться, это что накодить саму модель - это самая простая часть диплёрнинга. Ну что там, сотня строчек на керасе или торче, а все кишки уже написаны до вас. Сложная часть - это выбрать какую модель писать, как подфайнтюнить лосс и пофиксить мелкие баги... ну и конечно, препроцессить фичи.
Например я недавно для персонального проекта тренировал простенький SSD. Оказалось, что препроцессор фич просто медленный, и сетка раз в 50 быстрей обучается чем получает фичи от программы на питоне. Поэтому мне пришлось переписать препроцессинг в тензоры на GPU, что совсем нетривиально и заняло пару дней (сама сетка для SSD пишется за 10 минут). Умение отдебажить программу и сделать алгоритм более эффективным - это не диплёрнинг, но препроцессингом фич для своих моделей заниматься будете именно вы.
А значит от вас нужен кодинг. В вижне вообще очень много кодинга по сравнению со, скажем, NLP (преобразования изображений далеко не все идут из стандартных библиотек, аугментации практически везде есть domain-specific, итп) и кодинг этот нетривиальный.
Ещё пример, хотите вы посмотреть, насколько хорошо сенсоры распознают велосипедистов, которые близко к роботу. Надо для этого пройтись по размеченному датасету (скорее всего в каком-нибудь биг дэйта фрэймворке), и найти ближайшего велосипедиста (быстрый поиск ближайших объектов), и потом придумать как сделать полученные данные diverse, чтобы скажем 100 экземпляров были из разных сцен, а не 100 кадров одной сцены. Когда я представляю весь кодинг, который для этого и для других подобных задач нужен, сразу понимаю, что уровень знания алгоритмов должен быть высокий, выше чем в какой-нибудь гугл или фэйсбук.
Мастер-класс Основные ошибки в алготрейдинге от Айтпаева Кайрата (@kairat_aitpayev) основателя компании Wealtrix организованный совместно с Инновационным кластером NURIS. Дата и время: 31 августа в 19:00. Ценность семинара: Мы разберем какие основные ошибки, которые описаны в книге ”Advances in Financial Machine Learning” автора Marcos L.P. совершаемые начинающими квантами при разработки трейдинговых алгоритмов с применением машинного обучения. Что вы получите от семинара: - Понимание как не наступать на грабли новичков. - Основные алгоритмы и методы применяемые в алготрейдинге, а также ресурсы для дальнейшего изучения. Регистрация: bit.ly/3hEqsM5
Всем спасибо! Расскажу немного про задачу и организационные моменты:
Задача заключалась в детекции головки пшениц. Организаторы сказали, что это поможет фермерам отслеживать их здоровье и спелость. У задачи имелись некоторые особенности: 1. Шумная разметка. 2. Domain shift между обучающей и тестовой выборкой. Данные были собраны из разных регионов земного шара. 3. Организаторы почему-то решили, что учить на больших картинках нам будет неудобно и разрезали исходные картинки на тайлы 1024х1024. Исходники конечно же не дали.
Наше решение основывалась на библиотеке mmdetection. Если кратко, то мы собрали исходные пазлы, применяли агрессивные аугментации, обучили два SOTA детектора и применили псевдолэйблинг в кернеле. Более подробно прочитать можно тут: https://github.com/amirassov/kaggle-global-wheat-detection.
Соревнование было насыщено множеством событий: 1. Too much sharing #1: были выложены топовые кернелы с EfficientDet. В итоге много решений были основаны на этих кернелах. 2. Too much sharing #2: За месяц до конца контеста выложили кернел с YoloV5, который попадал в зону денежного приза. Но на форуме заметили, что ее код имеет проблему с лицензией :vot_eto_povorot:. Соответственно, использование YoloV5 в финальных сабмишнах было бы нарушением правил kaggle. В итоге все сабмиты с YoloV5 были удалены организаторами. 3. В середине контеста организаторы решили, что нужно пересчитать все сабмиты после дедлайна, так как разметка на private сете шумная и его надо переразмечать. Но они не рассказали о подробностях пересчета. В итоге сабмиты многих кэглеров упали из-за удаленного кэгл-датасета. 4. YouMeAidyn: участник с первого места финального ЛБ @aidynub заметил баг со стороны организаторов в пересчете сабмитов, поэтому тут же написал администраторам площадки. После чего без всяких разбирательств был удален из конкурса. И только после созданного резонанса на форуме удалось добиться ответа от kaggle.
Финальный ЛБ сборной dsmlkz выглядит так: 11. @amirassov, Or Katz, Shlomo Kashani 74. @aidynub (в итоге не добавили в ЛБ)