Python теперь является одним из стандартных языков и стандартных платформ для анализа данных и использования науки о данных. Итак, как новичку быстро приступить к анализу данных Python?
Основываясь на общем рабочем процессе анализа данных, соответствующие навыки и учебные пособия отсортированы ниже.
Общий рабочий процесс анализа данных выглядит следующим образом:
- Сбор данных
- Хранение и поиск данных
- Очистка данных и предварительная обработка
- Моделирование и анализ данных
- визуализация данных
1. Сбор данных
Источники данных делятся на внутренние данные и внешние данные.Внутренние данные в основном представляют собой данные в базе данных предприятия, а внешние данные в основном получают путем загрузки некоторых общедоступных данных или с помощью поисковых роботов. (Если анализ данных обрабатывает только внутренние данные, этот шаг можно пропустить.)
Мы можем загрузить общедоступный набор данных напрямую, поэтому ключевым содержанием этой части является поисковый робот. Затем навыки, которые мы должны освоить: базовый синтаксис Python, написание поискового робота Python.
Основной синтаксис Python: овладейте базовыми знаниями об элементах (списки, словари, кортежи и т. д.), переменных, циклах, функциях и т. д., чтобы уметь писать код умело, по крайней мере, без синтаксических ошибок.
Содержимое сканера Python: Научитесь использовать зрелые библиотеки Python (такие как urllib, BeautifulSoup, запросы, scrapy) для реализации поисковых роботов.
Поскольку большинство веб-сайтов имеют свои собственные механизмы защиты от сканирования, нам также необходимо научиться некоторым навыкам, чтобы справляться со стратегиями защиты от сканирования различных веб-сайтов. в основном включает:Регулярные выражения, имитация входа пользователя в систему, использование прокси-серверов, установка частоты сканирования, использование информации из файлов cookie и т. д.
Рекомендуемые ресурсы:
2. Хранение и извлечение данных
Когда дело доходит до хранения данных, это база данных, от которой невозможно убежать. Как самый основной инструмент базы данных, язык SQL незаменим. Общие реляционные базы данных, а также нереляционные базы данных также необходимо понимать.
язык SQL:Четыре самые основные операции: добавление, удаление, изменение и проверка.. Вы должны быть досконально знакомы с ним и получить его на кончиках ваших пальцев. Поскольку некоторые указанные данные могут быть извлечены, необходимо иметь возможностьНапишите операторы sql для извлечения определенных данных. При работе с некоторыми сложными данными это также потребуетГруппировка и агрегация данных, установление связей между несколькими таблицами.
MySQLиMongoDB: Освойте основы использования MySQL и MongoDB и поймите разницу между двумя базами данных. Изучив эти две базы данных, можно быстро начать работу с другими базами данных.
Рекомендуемые ресурсы:
3. Очистка и предварительная обработка данных
Часто данные, которые мы получаем, не являются чистыми, данные повторяются, отсутствуют, имеют выбросы и так далее. В настоящее время нам необходимо очистить и предварительно обработать данные, чтобы устранить факторы помех, чтобы более точно проанализировать результаты.
Для предварительной обработки данных мы в основном используем библиотеку Python Pandas.
Pandas: библиотека для обработки данных, которая не только предоставляет богатые структуры данных, но также предоставляет соответствующие функции для обработки таблиц данных и временных рядов.
Основное мастерствоВыбор, обработка отсутствующих значений, обработка повторяющихся значений, обработка пробелов и выбросов, операции корреляции, слияние, группировкаЖдать.
Рекомендуемые ресурсы:
- Основы обработки данных Pandas
- Pandas 100 вопросов
- Tutorials - pandas 0.25.1 documentation
- Анализ данных с помощью Python
4. Моделирование и анализ данных
Изюминкой анализа данных является не просто обработка данных, она требует определенной математической основы и основы машинного обучения.
Вероятность и знание статистики: базовая статистика (среднее значение, медиана, мода и т. д.), описательная статистика (дисперсия, стандартное отклонение и т. д.), статистические знания (население и выборка, параметры и статистика и т. д.), распределение вероятностей и проверка гипотез (различное распределение, процесс проверки гипотез), условная вероятность, байесовская и другие знания теории вероятностей.
машинное обучение: Овладейте широко используемой классификацией машинного обучения, регрессией, алгоритмами и принципами кластеризации, разберитесь в основах разработки функций, методах настройки параметров и пакетах анализа данных Python scipy, numpy, scikit-learn и т. д.
- NumPy: библиотека общего назначения, которая не только поддерживает часто используемые числовые массивы, но также предоставляет функции для эффективного управления этими массивами.
- SciPy: библиотека научных вычислений Python, которая значительно расширяет функции NumPy, а некоторые функции перекрываются. Numpy и SciPy использовали общий код, а затем разошлись.
Рекомендуемые ресурсы:
- Подробная статистика
- Статистические методы обучения
- Основы числовых вычислений NumPy
- Задача NumPy из 100 вопросов
- Основы научных вычислений SciPy
5. Визуализация данных
Визуализация данных, эта часть в основном опирается на Python Matplotlib и Seaborn.
- Matplotlib: библиотека 2D-чертежей с хорошей поддержкой построения фигур и изображений. В настоящее время Matplotlib включен в состав SciPy и поддерживает NumPy.
- Seaborn: пакет Python для визуализации графиков на основе matplotlib. Он предоставляет интерактивный интерфейс, который позволяет пользователям создавать различные привлекательные статистические графики.
Рекомендуемые ресурсы:
В соответствии с приведенным выше содержанием, пошаговое выполнение обучения может в основном удовлетворить требования младших аналитиков данных. Но не забывайте, что после освоения основных навыков вам нужно больше практиковаться и уделять внимание реальному бою, чтобы лучше совершенствовать свои навыки.
Вот несколько хороших проектов, которые можно порекомендовать:
- Анализ основных данных страховой отрасли Китая за последние пять лет
- Анализ статус-кво постов с анализом данных на фоне интернет-зимы в Ханчжоу
- Использование дерева решений регрессии для прогнозирования цены на основе данных о продажах мобильных телефонов JD.com
Вышеупомянутые случаи все из здания лаборатории«Строительство + анализ данных и практика добычи полезных ископаемых»студенты курса.