Оригинальный адрес:Комплексный путь обучения — Наука о данных в Python
Если вы хотите стать специалистом по данным или уже занимаетесь анализом данных и хотите расширить свои навыки, то вы обратились по адресу. Цель этой статьи — предоставить полный курс обучения для новичков в Python в области анализа данных. Этот путь предоставляет полный обзор всех шагов, которые необходимо изучить для выполнения анализа данных с помощью Python. Если у вас уже есть какой-то соответствующий опыт или вам не нужно все на пути, не стесняйтесь корректировать свой собственный путь обучения и сообщать всем, как вы адаптировались.
Шаг 0: Разминка
Прежде чем начать свое обучение, ответьте на первый вопрос: зачем использовать Python? Или как Python вступает в игру? Посмотрите, как основатель DataRobot Джереми на PyCon Ukraine 201430-минутная речь, чтобы узнать, насколько полезен Python.
Шаг 1. Настройте среду вашего компьютера
Теперь, когда вы решили усердно учиться, пришло время настроить компьютерную среду. Проще всего скачать дистрибутив Anaconda с http://Continuum.io. Anaconda упаковывает большинство вещей, которые вы можете использовать позже. Основным недостатком этого подхода является то, что вам все равно придется ждать, пока Continuum обновит пакет Anaconda, даже если может быть доступно обновление базовой библиотеки. Конечно, если вы новичок, это должно быть хорошо. Если у вас возникнут проблемы во время установки, вы можетездесьНайдите более подробные инструкции по установке для различных операционных систем.
Шаг 2: Изучите основы языка Python
Вы должны начать с понимания основ, библиотек и структур данных языка Python. Некоторые на CodecademyБесплатные уроки Pythonявляется одним из ваших лучших вариантов. Основное внимание в этом курсе уделяется тому, как начать работу с Python для науки о данных.После завершения этого курса вы должны быть знакомы с основными понятиями языка Python и использовать его для написания небольших сценариев.
Задание: участие аналитической фирмыБесплатные курсы Python от Vidhya
Альтернативные ресурсы: если вам не нравится интерактивное кодирование, вы также можете изучитьКурс Python от Google. Эта двухдневная серия курсов включает в себя не только упомянутые ранее знания Python, но и некоторые вещи, которые будут обсуждаться позже.
Шаг 3: Изучите регулярные выражения на языке Python
Вы будете часто использовать регулярные выражения для очистки данных, особенно когда имеете дело стекстовые данныекогда. Лучший способ выучить регулярные выражения — взятьКурс Python от Google, вам будет проще использовать регулярные выражения.
Домашнее задание: сделать оимя ребенкаупражнения с регулярными выражениями.
Если вам все еще нужно больше практики, вы можете принять участие в этомУчебник по очистке текста. Различные этапы обработки, связанные с предварительной обработкой данных, могут быть сложными для вас.
Шаг 4. Изучите научные библиотеки на Python — NumPy, SciPy, Matplotlib и Pandas
С этого момента процесс обучения станет интересным. Ниже приведено введение в каждую библиотеку, вы можете выполнять некоторые общие операции:
-
в соответствии сУчебник по NumPyВыполните полное упражнение, особенно с массивами. Это заложит основу для последующего обучения.
-
узнать дальшеУчебник по Сципи. Прочитав введение и основы Scipy, вы можете изучить остальное в соответствии с вашими потребностями.
-
Здесь не требуется учебник по Matplotlib. Контент Matplotlib слишком широк для наших нужд. Вместо этого вы можете узнать этоПримечанияСодержимое первых 68 строк.
-
Наконец изучите панд. Pandas предоставляет функциональность DataFrame для Python (аналогично R). Это также то место, где вы должны уделять больше времени практике. Pandas станет наиболее эффективным инструментом для анализа всех данных среднего масштаба. Для начала можно прочитать10-минутное краткое введение в Pandas, то узнайте более подробноУчебник по пандам.
Вы также можете изучить два блогаExploratory Data Analysis with PandasиData munging with Pandasсодержание в .
Дополнительные ресурсы:
- Если вам нужна книга о Pandas и Numpy, я рекомендую «Python для анализа данных» Уэса МакКинни.
- В документации Pandas также есть много руководств по Pandas, вы можете найти их вздесьПроверять.
Задание: попытаться решить класс Harvard CS109.эта задача.
Шаг 5: Полезная визуализация данных
присоединитьсяCS109этого курса. Можно пропустить первые 2 минуты, но контент после этого будет сухим. вы можете в соответствии сэти рабочие местачтобы закончить курс.
Шаг 6. Изучите библиотеку Scikit-learn и материалы для машинного обучения
Теперь мы собираемся начать изучать основы всего процесса. Scikit-learn — самая полезная библиотека Python для машинного обучения. Вы можете ознакомиться с библиотекойКраткий обзор. полный ГарвардКурс CS109Курсы с 10 по 18 этих курсов содержат обзор машинного обучения, а также знакомят с контролируемыми алгоритмами, такими как регрессия, деревья решений, ансамблевые модели и неконтролируемые алгоритмы, такие как кластеризация. Вы можете выбрать в соответствии с каждым курсомОперацияпройти соответствующий курс.
Дополнительные ресурсы:
- Если есть одна книга, которую вы должны прочитать, я рекомендую «Программирование коллективного разума». Эта книга немного старовата, но все же одна из лучших в этой области.
- Кроме того, вы также можете принять участие вКурс машинного обучения Ясера Абу-Мостафы, который является одним из лучших курсов по машинному обучению. Если вам нужно более понятное объяснение методов машинного обучения, вы можете выбрать один изКурс машинного обучения Эндрю Нг, и используйте Python для выполнения соответствующих упражнений курса.
Шаг 7: Практика, практика, практика!!!!!!
Поздравляем, вы завершили весь учебный путь. Теперь вы изучили все необходимые навыки.
Теперь вопрос в том, как практиковаться, и нет ничего лучше, чемDataHackЕсть ли лучший способ конкурировать с учеными данных в практике?(Автор должен внести некоторые изменения здесь, помните предыдущую версию, рекомендуется Kaggle. Но все они являются хорошими платформами для реального боя)
Шаг 8: Глубокое обучение
Теперь, когда вы изучили большинство методов машинного обучения, пришло время сосредоточиться на глубоком обучении. Скорее всего, вы уже знаете, что такое глубокое обучение, но если вам все же нужно краткое введение, см.здесь.
Я новичок в глубоком обучении, поэтому, пожалуйста, будьте избирательны с некоторыми из приведенных ниже предложений.deeplearning.netСамый полный ресурс для глубокого обучения в Интернете, где вы найдете все, что вам нужно: лекции, наборы данных, задачи, учебные пособия и многое другое.
постскриптум: несмотря на то, что эта статья написана в 2015 году, она по-прежнему представляет большую справочную ценность для студентов, которые только начинают работать с Python и одновременно хотят изучать науку о данных. И после нажатия на исходный текст автор обновил версию пути обучения 2019 года в начале, и вы также можете посмотреть, если вам интересно.