Обложка канала

LEFT JOIN

5709 @leftjoin

Канал Николая Валиотти об аналитике и визуализации данных, data science и BI

LEFT JOIN

4 года назад
Открыть в
Disclaimer: This course can be very tough for many! The amounts of time students spend on this class greatly vary, based on their backgrounds, and what they may already know. Some former students told us they spent about 40-60 hours on each homework assignment (we have 4 big assignments, and no exams), and some reported much less. Именно с такого дисклеймера начался мой очередной курс в Georgia Tech OMSA. Курс назывался CSE-6242 и был посвящен визуализации и обработке данных. Домашние работы и правда отнимали львиную долю времени, но оно того стоило, разумеется. Это была супер-жесть, а не курс! Изначально, я хотел взять два (этот и еще один), но от второго пришлось быстренько отписаться, после того как я увидел программу CSE-6242. На курсе мы освоили: 1. Обработку данных на Python и построение графа связей 2. Изучение библиотеки d3.js с нуля до вменяемых рабочих графиков (все хочу небольшой интро-курс сделать, но рук не хватает) 3. Облачные масштабируемые вычисления: Databricks, Google Computing, AWS 4. Методы машинного обучения: кластеризацию и классификацию. Преподаватели Georgia Tech очень любят, чтобы домашние задания представляли собой не простые отработки моделей “fit-predict”, а состояли из алгоритмов, написанных с нуля с использованием самых базовых библиотек. В финале курса был групповой проект, который мы выполняли с 5 студентами из разных стран: надо придумать задачу, где используются технологии инжиринга данных и машинного обучения на одном из огромных датасетов. Мы придумали проект про создание EDA Tool, который берет датасет и выдает всю описательную статистику, в том числе для текстов. В моем идеальном представления это выглядело очень круто, на деле получилось прям совсем не очень. Видимо, за полтора месяца слепить MVP группой студентов оказалось тяжеловато. Однако, в курсе было много полезных знаний и картинок (отправляю их вам) + супер полезные видео. Из интересных результатов работы: кривая Retention из Игры в Кальмара на d3.js, много погружения в Scala, Spark. Короче, прошлись по современному датавизу и клауду “галоппом по европам“. Итоговый результат: оценка A, клевый опыт, рабочие ноутбуки, остаточные знания d3.js. P.S. А ниже картинка с напоминанием себе ряда слайдов из обучения. #omsa #gatech