панды | Обработка данных с пандами - Серия

Эта статья возникла из личного публичного аккаунта:TechFlow, оригинальность это не просто, прошу внимания

На прошлой неделе мы завершили знакомство с библиотекой научных вычислений Numpy на Python, сегодня мы начинаем знакомить вас с новой общеизвестной библиотекой вычислительных инструментов.Pandas.

Полное название Pandas — библиотека анализа данных Python, которая представляет собойНа основе Намписредства научных вычислений. Его самая большая особенность заключается в том, что он может работать как таблица в базе данных.Работа со структурированными данными, поэтому он поддерживает множество сложных и продвинутых операций и может считаться расширенной версией Numpy. Он может легко создавать полные данные из таблицы csv или excel и поддерживает множество интерфейсов расчета пакетных данных на уровне таблицы.

Установите и используйте

Как и почти все пакеты Python, pandas также можно установить через pip. Если вы установили пакет Anaconda, то такие библиотеки, как numpy и pandas, были установлены автоматически.Если они не были установлены, это не имеет значения.Мы можем завершить установку одной строкой команды.

pip install pandas

Как и Numpy, мы обычно даем ему псевдоним, когда используем pandas Псевдоним pandas — pd. Итак, соглашения об использовании панд:

import pandas as pd

Если вы запустите эту строку без ошибок, то ваши панды были установлены. Есть два других пакета, которые часто используются с пандами, один из которых также является пакетом научных вычислений под названием Scipy, а другой — набором инструментов для визуализации данных под названием Matplotlib. Мы также можем использовать pip для совместной установки этих двух пакетов.В следующих статьях при использовании этих двух пакетов мы кратко расскажем об их использовании.

pip install scipy matplotlib

Индекс серии

В pandas есть две наиболее часто используемые структуры данных: Series и DataFrame. всерия - это одномерная структура данных, который можно просто понимать как одномерный массив или одномерный вектор. DataFrame — это, естественно, двумерная структура данных, которую можно понимать как таблицу или двумерный массив.

Давайте сначала посмотрим на Series, В Series хранятся два основных данных: один представляет собой массив, состоящий из группы данных, а другой — индекс или метка этой группы данных. Мы просто создаем серию и распечатываем ее, чтобы увидеть.

Здесь мы произвольно создаем серию из четырех элементов и распечатываем ее. Вы можете видеть, что распечатанные данные имеют всего два столбца.Второй столбец — это данные, которые мы ввели, когда только создали его.Первый столбец - это его индекс. Поскольку мы не указали индекс при его создании, pandas автоматически создаст для нас индекс номера строки, Мы можем просматривать данные и индекс, хранящиеся в Series, через значения и свойства индекса типа Series:

вывод здесьvalues — это массив Numpy, что неудивительно, ведь как мы уже говорили ранее, pandas — это библиотека для научных вычислений, разработанная на основе Numpy, а Numpy — ее нижний слой. Из распечатанной информации индекса мы видим, что это индекс типа Range, его диапазон и размер шага.

Индекс является параметром по умолчанию в функции построения Series, если мы его не заполним, он по умолчанию сгенерирует для нас Range index, что на самом деленомер строки данных. Мы также можем указать индекс данных сами.Например, если мы добавим параметр индекса в код только сейчас, мы можем указать индекс сами.

Когда мы указываем индекс символьного типа, результатом, возвращаемым индексом, будет уже не RangeIndex, а Index. Обратите внимание, что pandas внутренне различает числовые индексы и индексы символов.

С индексом он естественно используется для поиска элементов. мы можемИспользуйте индекс непосредственно как нижний индекс массива, эффект от обоих одинаков. Мало того, массив индексов также приемлем, мы можем напрямую запросить значение нескольких индексов.

Кроме того, при создании СерииДубликаты индексов также разрешены.. Точно так же, когда мы используем индексный запрос, мы получим несколько результатов.

Не только это, но и логические индексы, такие как Numpy, по-прежнему поддерживаются:

Расчет серии

Серия поддерживает множество типов вычислений, мы можем напрямую использоватьОперации сложения, вычитания, умножения и деления выполняются на всей серии.:

также можетИспользуйте арифметические функции в Numpyдля выполнения некоторых сложных математических операций, но результатом этого вычисления будет массив Numpy.

Поскольку в Series есть индекс, мы также можем использовать метод dictОпределить, находится ли индекс в серии:

Series имеет индекс и значение, на самом деле структура хранения dict такая же, поэтому Seires также поддерживает инициализацию через dict:

Порядок, созданный таким образом, — это порядок, в котором хранятся ключи в словаре.Указать индекс при создании, так что вы можете контролировать его порядок.

Когда мы указываем индекс, мы дополнительно передаем ключ, которого нет в словаре, так как соответствующее значение не может быть найдено в словаре, то Series запишет его как NAN (не число). можно понимать какНедопустимое значение или нулевое значение, Когда мы имеем дело с признаками или обучающими данными, мы часто сталкиваемся с ситуацией, когда признак данных некоторых записей является вакантным, мы можем проверить вакансию через функции isnull и notnull в pandas.

Конечно, в Series также есть функции isnull, которые мы также можем вызывать.

Наконец, в сериииндекс также может быть изменен, мы можем напрямую присвоить ему новое значение:

Суммировать

По сути, серия в пандахУровень инкапсуляции одномерных массивов Numpy, а также некоторые связанные функции, такие как индексирование. Таким образом, мы можем представить, что DataFrame на самом деле представляет собой пакет массива Series, а также дополнительные функции, связанные с обработкой данных. Мы поняли основную структуру, и тогда понимание функций всех панд намного полезнее, чем запоминание этих API по одному.

пандыОтличный инструмент для обработки данных Python, поскольку квалифицированный инженер-алгоритм почти обязателен, и это также является основой для использования Python для машинного обучения и глубокого обучения. По данным опроса ежедневная работа инженеров-алгоритмистов70% акций вложены в обработку данных, менее 30% фактически используются для реализации и обучения моделей. Таким образом, видно важность обработки данных.Если вы хотите развиваться в отрасли, недостаточно просто изучить модель.

Статья здесь, если вам понравилась эта статья, если можно, пожалуйстаобращать внимание, подбодрите меня и облегчите доступ к другим статьям.

В этой статье используетсяmdniceнабор текста