Pandas | Методы сортировки и агрегации в DataFrame

Эта статья возникла из личного публичного аккаунта:TechFlow, оригинальность это не просто, прошу внимания

Сегодняобработка данных пандВ шестой статье темы поговорим об операциях сортировки и агрегации DataFrame.

В предыдущей статье мы в основном представили фрейм данных вприменить метод, Как выполнять широковещательные операции для каждой строки или столбца в DataFrame, чтобы мы могли обрабатывать все данные за очень короткое время. Сегодня мы поговорим о том, как сортировать DataFrame в соответствии с нашими потребностями и как использовать некоторые итоговые операции.

Сортировать

Сортировка является для нас очень важным требованием, в пандах это требование далее подразделяется насортировка по индексуи согласноПорядок значений. Давайте сначала посмотрим на метод сортировки в Series.

В Series есть два метода сортировки, один — sort_index, который, как следует из названия, сортирует значения по индексу в Series. Другой — sort_values, который сортирует по значениям в Series. Оба метода возвращают новую серию:

сортировка по индексу

То же самое верно и для DataFrame, у которого тоже есть две функции: сортировка по значению и сортировка по индексу. Но поскольку DataFrame — это двумерные данные, их использование будет немного отличаться. Самое простое отличие состоит в том, что у Series всего один столбец, и мы четко знаем объект, который нужно отсортировать, а DataFrame — нет, в нем есть два вида индексов, а именно индекс строки и индекс столбца. Итак, когда мы сортируемНужно указать ось, по которой мы хотим сортировать, что является осью.

По умолчанию мы сортируем по индексу строки, если мы хотим указать сортировку по индексу столбца, нам нужно передать параметр axis=1.

Мы также можем передать возрастающий параметр, чтобы указать, что желаемый порядок сортировкивперед или назад.

Порядок значений

Порядок значений DataFrame отличается, мы не можем упорядочивать строки,только для столбцов. Мы передаем столбец, который хотим отсортировать по ссылке, через параметр by, который может быть одним столбцом или несколькими столбцами.

ранжирование

Иногда мы хотим получитьРанг элементов, мы хотим знать ранг текущего элемента в целом, Pandas также предоставляет эту функцию, которая является методом ранга.

Мы можем обнаружить, что в ряду чисел, которые мы вводим наугад, есть две 7. 7 — самое большое число в ряду, но почему они имеют ранг 6,5?

На самом деле это очень просто, потому что 7 встречается дважды, 6-е и 7-е.Здесь ранжирование всех его вхождений усреднено, поэтому оно равно 6,5. Если мы не хотим, чтобы это было усреднено, ноРанжируется по порядку появленияЕсли это так, мы можем указать желаемый эффект с помощью параметра метода.

Допустимые параметры метода — это не только первый, но и некоторые другие, чуть менее популярные варианты использования, которые мы перечислим вместе.

Если это DataFrame, по умолчанию для расчета общего рейтинга элементов в каждой строке используются единицы строки. Мы также можем указать расчет в столбцах с помощью параметра оси:

Агрегатная операция

Наконец, давайте представим сводную операцию в DataFrame, сводную операциюАгрегатная операция, такой как наш самый распространенный метод суммирования, который агрегирует и суммирует пакет данных. Подобные методы есть и в DataFrame, рассмотрим их по порядку.

Первый — это сумма. Мы можем использовать сумму для суммирования DataFrame. Если параметры не переданы, по умолчанию суммируется каждая строка.

В дополнение к сумме часто используется среднее значение, которое можно усреднить для строки или столбца.

Поскольку в DataFrame часто есть элементы NA, мы можем использовать параметр skipna, чтобы исключить пропущенные значения, а затем вычислить среднее значение.

Еще один метод, который я лично считаю очень полезным, — это descirbe, который возвращает данные в DataFrame.Общая информация. Например, среднее значение, размер выборки, стандартное отклонение, минимум, максимум и т. д. для каждого столбца. Это распространенный статистический метод, который можно использовать для понимания распределения данных в DataFrame.

В дополнение к этим введенным методам в DataFrame существует множество аналогичных методов сводных операций, таких как idxmax, idxmin, var, std и т. д. Если вам интересно, вы можете проверить соответствующие документы, но, по моему опыту, это обычно не используется.

Сегодняшняя статья здесь, если вам понравилась эта статья, пожалуйста, приходите на волнукачество три, поддержите меня (Подписывайтесь, делайте репосты, лайкайте).

- END -