Канал, посвященный анализу данных с помощью Python. Не столько про машинное обучение, сколько про подготовку/очистку/предобработку данных, использование Python для получения данных из API, парсинга веб-сайтов, автоматизации различной рутины
🤔Что общего у бортпроводников, хирургических бригад и успешных специалистов по анализу данных? Все они используют читлисты. Читлисты – это шпаргалки, в которых собраны базовые действия. Несмотря на то, что каждая операция, каждый проект и каждый полет имеют свои особенности, во всех этих вещах есть необходимые основные шаги.
Мы собрали для вас шпаргалки по Python для анализа данных, чтобы вам не пришлось тратить время на поиск банальных функций:
🔷 Numpy. Практически в каждом проекте по анализу данных есть вычисления с помощью этого модуля. Numpy помогает при работе с массивами, матрицами, операциями из линейной алгебры и другими математическими вычислениями. Сохраняйте шпаргалку по Numpy отсюда.
🔷 Scikit-learn. Полдключение этой библиотеки также встречается почти во всех работах по машинному обучению. Scikit-learn выручает в случаях, когда надо использовать алгоритмы ML. Он предоставляет выбор эффективных инструментов, включая регрессию, классификацию, кластеризацию, подбор гиперпараметров, метрики и оценки и снижение размерности. Читлист по scikit-learn можно найти здесь.
🔷 Pandas. Эта библиотека была создана с целью упростить работу с данными. Pandas облегчает выполнение трудоемких и повторяющихся задач, в том числе: очистку данных, масштабирование, объединения, проверки значений, визуализацию и статистический анализ. Шпаргалка лежит здесь.
🔷 Matplotlib. Эта библиотека отвечает за визуализацию данных и считается самой распространенной среди специалистов по DS. Отрисовка графиков, диаграмм, пайчартов, точечных спектров с уникальным стилем, подписями, легендами и возможностью сохранения в любом удобном формате – весь этот функционал доступен благодаря Matplotlib. Краткий список по этому модулю забираем отсюда.