30 советов по высокочастотному использованию Pandas

Python pandas

Общественный номер: You Er Hut
Автор: Питер
Редактор: Питер

Всем привет, меня зовут Питер~

В этой статье в основном представлены некоторые советы, с которыми Питер часто сталкивается в процессе использования Pandas для обработки данных. Предыдущие статьи были разборкой разных точек знаний, а эта статья — мой собственный высокочастотный метод использования.

Серийные статьи Pandas

Рекомендуемые статьи

высокочастотные навыки

Используемые методы в основном задействованы на следующем рисунке:

import pandas as pd
import numpy as np

Импорт файлов

Панды могут читать многие файлы: Excel, CSV, базу данных, TXT, даже онлайн-файлы в порядке.

Создать кадр данных

10 методов DataFrame, описанных в предыдущих статьях

Просмотр данных головы и хвоста

Голова и хвост по умолчанию 5 строк данных, вы можете указать количество строк

# df2.head()  默认头部5行
df2.head(3)  # 指定3行

# df2.tail()  默认尾部5行
df2.tail(2)  # 指定尾部2行

показать все имена столбцов

показать индекс

Просмотр типа данных столбца

Просмотр количества строк и столбцов

Просмотр размера данных

Просмотр отсутствующих значений

Изменить имена столбцов

Два способа: использование функции переименования и непосредственное использование свойства столбцов.

Статистические элементы

подсчитайте количество каждого элемента

Преобразование в список данных

Извлечь данные из столбца

Извлечь текстовые данные

Извлечение данных числового диапазона

Извлечь весь столбец данных

Отсутствует заполнение значения

  • Укажите заполненное значение
  • с расчетным значением
  • использовать другие значения

дедупликация данных

Рассчитать статистику

Рассчитать статистические значения, такие как максимальное и среднее значение и т. д.

Вычислить медиану

Извлеките строку с наибольшим значением

Кусочки панды

df2.iloc[22]  # 提取某个行的数据
df2.iloc[:,1:6]  # 行和列上的切片

Сортировать по размеру

Агрегация группы

После группировки по groupby вы можете использовать разные функции агрегации для разных полей.

перестановка индекса

Обратите внимание на сравнение с примером выше. Используется функция reset_index

удалить исходный индекс

После использования перестановки индексов нам нужно удалить исходный индекс, сравнить разницу между верхними и нижними результатами. Реализовано drop=True

image-20211006120119786

применить функцию

Добавьте два столбца

Слияние фреймов данных

1. Сначала посмотрите на два исходных данных

2. Случай по умолчанию: пересечение двух искомых ФР

3. Держите все данные слева

4. Держите все данные справа

How="inner" на самом деле используется по умолчанию:

экспорт данных

При экспорте данных обычно нет необходимости в индексе