зачем использоватьPandasДелать анализ данных?
Действительно «сырые» данные требуют множества операций «очистки», прежде чем они будут готовы для профилирования учеными данных, одним из популярных инструментов очистки данных Python являетсяPandas. Поскольку Pandas имеет широкий спектр пакетов, можно реализовать практически любую возможную функцию. Библиотека Pandas — один из таких пакетов, который упрощает жизнь, особенно при анализе данных. Управляйте и визуализируйте с помощью обширных встроенных функций.
Первые шаги в пандах
Если вы используете Anaconda, то у вас автоматически есть Pandas. Но по какой-то причине, если у вас его нет.
Просто запустите эту команду -
conda install pandas
Если вы не используете Anaconda. Затем установите через pip -
pip install pandas
Импортировать- Чтобы импортировать панд, используйте
import pandas as pd
В заключение, лучше импортировать NumPy с pandas для большей функциональности numpy. Короче говоря, это поможет нам с исследовательским анализом данных (EDA).
Структуры данных панд
Pandas имеет две основные структуры данных.
- ряд
- кадр данных
ряд
Основной синтаксис для создания серии панд выглядит следующим образом.
newSeries = pd.Series(data , index)
Данные могут быть любого типа, от словарей Python до списков или кортежей. Это также может быть массив Numpy.
Давайте построим серию из списка Python.
mylist = ['Tanishka','Machine Learning', 24, 'India']
labels = ['Name', 'Career', 'Age', 'Country']
newSeries = pd.Series(mylist,labels)
print(newSeries)
Кроме того, давайте посмотрим, как создать серию с помощью словаря Python.
myDict = {'Name': 'Tanishka',
'Career': 'Machine Learning',
'Age': 24,
'Country': 'India'}
mySeries = pd.Series(myDict)
print(mySeries)
Доступ к данным из серии
Обычный шаблон для доступа к данным из серии Pandas —
seriesName['IndexName']
Возьмем в качестве примера mySeries, который мы создали ранее. Чтобы получить значения для имени, возраста и рода занятий, все, что нам нужно сделать, это
print(mySeries['Name'])
print(mySeries['Age'])
print(mySeries['Career'])
Основные операции в серии Pandas
Например, давайте создадим два новых ряда и поработаем с ними.
newSeries1 = pd.Series([10,20,30,40],index=['LONDON','NEWYORK','Washington','Singapore'])
Основные арифметические операции включают операции +-*/. Они выполняются суперэкспоненциально, так что давайте их выполним.
newSeries1 + newSeries2
Здесь мы видим, что поскольку индексы для Лондона и Нью-Йорка присутствуют в обоих рядах. Итак, он складывает значения обоих, а оставшийся вывод — NaN (не число).
newSeries1 * newSeries2
newSeries1 / newSeries2
Фрейм данных
Создайте фрейм данных со списками
import pandas as pd
# list of strings
new_list = ['Mango','Kiwi','Strawberry','Pineapple']
# Calling DataFrame constructor on list
df = pd.DataFrame(new_list)
print(df)
Теперь используйте словарь ndarray/lists
import pandas as pd
# intialise data of lists.
new_list = {'Name':['Mango','Kiwi','Strawberry','Pineapple'],'Price':[20, 21, 19, 18]}
# Create DataFrame
df = pd.DataFrame(new_list)
# Print the output.
print(df)
Индексировать и выбирать данные
В Pandas индексирование означает просто выбор определенных строк и столбцов данных из DataFrame. Это может означать выбор всех строк и некоторых столбцов, некоторых строк и всех столбцов или некоторых строк и столбцов. Индексацию также можно назвать выбором подмножества.
Оператор индексации используется для ссылки на квадратные скобки, которые следуют за объектом. символ[.loc](https://www.geeksforgeeks.org/python-pandas-extracting-rows-using-loc/)
Один[.iloc](https://www.geeksforgeeks.org/python-extracting-rows-using-pandas-iloc/)
Индексаторы также используют операторы индексации для выбора. В этом операторе индексации он ссылается на df[].
Теперь мы выбираем один столбец
# importing pandas package
import pandas as pd
# intialise data of lists.
data = {'Name':['Mango','Kiwi','Strawberry','Pineapple'],'Price':[20, 21, 19, 18]}
# retrieving columns by indexing operator
first = data["Price"]
print(first)
выбрать одну строку использовать .loc
import pandas as pd
data = {
"Name": ['Mango','Kiwi','Strawberry','Pineapple'],
"Price": [20, 21, 19, 18]
}
#load data into a DataFrame object:
df = pd.DataFrame(data)
#refer to the row index:
print(df.loc[0])
выбрать одну строку используя .iloc
import pandas as pd
data = {
"Name": ['Mango','Kiwi','Strawberry','Pineapple'],
"Price": [20, 21, 19, 18]
}
#load data into a DataFrame object:
df = pd.DataFrame(data)
#refer to the row index:
print(df.iloc[3])