Рекомендованный видеоурок Python Data Frame Pandas

искусственный интеллект Python pandas PyCon

Если вы хотите самостоятельно решать проблемы науки о данных в Python, Pandas неизбежен.

новый

Сегодня провел все утро, следуяЭта серия руководств на Youtube, изучил промежуточные навыки Pandas.

Видео предоставлено Data School. ИздательKevin Markham.

В этой серии видеоуроков Кевин разделил свой мастер-класс PYCON 2018 на 10 частей и выпустил их после тщательного редактирования. Проведите вас шаг за шагом, чтобы оценить очарование панд.

Мне потребовалось более 2 часов, чтобы закончить все его 10 видео.

Большой урожай.

Используйте данные по контролю дорожного движения в США, упомянутые в руководстве отСтэнфордский открытый полицейский проект(ОТКРЫТЫЙ СТАНФОРДСКИЙ ПОЛИЦЕЙСКИЙ ПРОЕКТ).

Вот как могут выглядеть данные:

Следуя инструкциям Кевина шаг за шагом, вы можете добиться этого:

Какие категории входят в анализ нарушений ПДД как мужчинами, так и женщинами-водителями? Какова доля каждой категории?

По каким причинам мужчины и женщины-водители, машины которых были обысканы?

В какой период полиция выявляет больше всего нарушений?

Каково возрастное распределение водителей по разным нарушениям?

Эти результаты анализа являются лишь небольшой частью этого руководства.

Более того, почти все приведенные выше графики можно построить с помощью двух или трех операторов Pandas. немногопросто нужен одинможет.

Как насчет этого? Есть ли у вас желание учиться?

Учебники и файлы ipynb доступны наэто репозиторий на гитхабескачать.

После установки Anaconda 3 вы можете открыть блокнот Jupyter и просмотреть видео.

Старый друг

Подскажите, как я нашла такой хороший видеоурок.

На самом деле это совсем не удивительно.

Потому что я гонюсь за школой данных (Kevin Markham) на несколько лет.

Как видите, самое раннее видео Кевина, загруженное в апреле 2014 года, говорит о git и github.

У него также есть официальный сайтdataschool.io.

Спина вышла из-под контроля. Содержание лекции — почти все интересные знания в области науки о данных.

включают:

Я начал изучать Python самостоятельно в 2013 году.

Некоторое время я гонялся за обновлениями даташколы.

Я получил много пользы от этих бесплатных видеоуроков.

В 2016 году Кевин продюсировалПлатные курсы, учит, как использовать Python, scikit-learn для обработки естественного языка (NLP) и машинного обучения для текста.

Это первый раз, когда я оплатил курс за пределами основной платформы курсов (Coursera, Udacity, EdX, Datacamp).

Дорого.

Но я думаю, что это вложение очень выгодно.

Опираясь на знания и навыки, полученные в ходе этого курса, я привел свою команду выпускников к публикации 3 статей, в том числе двух международных конференций по поиску EI и одного основного журнала CSSCI. Успешно закончили обучение 3 аспиранта.

Я также поделился знаниями, полученными на этом курсе, с большим количеством людей, используя общедоступные учетные записи Jianshu и WeChat.

Обучение на основе конкретных случаев, подробное описание процесса, совместное использование всего кода и результатов работы с Jupyter Notebook...

Если вы часто читаете мой официальный аккаунт, вы должны быть знакомы с этим стилем, верно?

Да, Кевин сильно повлиял на меня.

Однако после прохождения этого курса я обнаружил, что канал Кевина на Youtube находится в состоянии приостановки.

В то время я задавался вопросом, был ли он таким же, как известный редактор, автор системы Mac, он просто ушел и ушел на пенсию, когда заработал достаточно денег?

К счастью, через несколько месяцев я узнал о его местонахождении из подписного письма:

Он оказался счастливым сыном и ушел в декретный отпуск.

Итак, я был рад снова увидеть Кевина на PyCon 2018.

руководство

Учебное пособие по кадрам данных Pandas, я рекомендую вам усердно учиться.

Зачем?

Потому что во всем процессе анализа данных люди, кажется, слишком увлечены краулерами (вход) и глубоким обучением (выход), и часто забывают, что собранная информация может быть не структурирована, а есть «неопрятные» (неопрятные) данные в нем., нужно разобраться.

Для организации таких данных обычно используются инструменты Pandas в Python и tidyverse в R.

Подумайте об этом, если вы используете Beautifulsoup, request-html, scrapy для сканирования данных и используете scikit-learn, keras, tensorflow для машинного обучения, то вы готовы выйти посередине, выполнить сортировку данных в R, а затем бросить обратно?

Поэтому главное преимущество Pandas перед tidyverse не в том, что он мощнее, а в том, что он принадлежит Python.экосистема.

Если вы хотите самостоятельно решать проблемы науки о данных в Python, Pandas неизбежен.

Как только вы освоите технологию фреймов данных Pandas, вы сможете легко обрабатывать собранные данные и в то же время делать достаточную подготовку для последующего построения модели.

Какой учебник вы используете для обучения?

Если вы предпочитаете бумажное чтение, я рекомендую читать классику:Python for Data Analysis. Книга была хорошо принята, и молва говорит о многом.

Проблема с этой книгой в том, что она вышла почти 6 лет назад, поэтому многие операции устарели.

Кроме того, общая проблема всех бумажных книг — одностороннее когнитивное восприятие.

Сравнительно говоря, я предпочитаю смотреть видеоуроки, ведь там реальный человек демонстрирует, от чего мне становится намного лучше, а также контролирует мое собственное обучение.

По крайней мере, вы можете практиковать свои навыки аудирования, разговорной речи, чтения и письма на английском языке, верно?

Однако этот учебник на PyCon 2018,неподходящийПанды начинающие. Его позиционирование заключается в том, чтобы иметь определенную базовую группу пользователей.

Прежде чем приступить к руководству, я предлагаю вам сначала изучить основы Pandas.

Рекомендуемый учебник — это серия бесплатных видеоуроков Pandas от Кевина 2016 года:Data analysis in Python with pandas.

Этот учебник начинается с самых простых понятий, сначала учит вас, как читать данные csv, а затем помогает вам попробовать, попрактиковаться в сортировке и анализе данных, шаг за шагом отвечая на конкретные вопросы.

Тем не менее, этот учебник был выпущен в течение двух лет в конце концов.

Два года могут быть ничем для зрелой дисциплины.

Однако для науки о данных это действительно меняется с каждым днем.

К счастью, в январе 2018 года Кевин опубликовалДва обновленных видеоурока, в котором представлена ​​разница между текущей последней версией Pandas (0.22) и версией 2016 года (0.18), которая является патчем для обновления для учебника.

С этим ведущим контентом в качестве основы, я полагаю, вам будет намного легче смотреть видео с PyCon 2018.

Однако я предлагаю не ограничиваться просмотром, а практиковаться во время просмотра, открывая Jupyter Notebook.

Только так вы сможете реально улучшить свои прикладные навыки и сформировать мышечную память на часто используемые команды в Pandas.

Желаю прогресса в обучении!

Лайк пожалуйста лайк. Вы также можете подписаться на мой публичный аккаунт в WeChat и закрепить его."Юшу Чжилань" (нкваншуйи).

Если вы интересуетесь наукой о данных, вы можете прочитать мою серию постов с учебными указателями "Как эффективно начать работу с наукой о данных?", есть более интересные задачи и решения.