Получив более 4000 данных о губной помаде на TaoBao, я обнаружил, что…
Всем привет, меня зовут Питер~
Недавно я, наконец, начала заниматься помадой~ Я получила более 4000 данных о помаде из Интернета, провела обработку и анализ данных. Это похоже на открытие нового мира!
Интересно, что означает эта картинка? Пожалуйста, прочитайте полный текст~
библиотека импорта
import pandas as pd
import numpy as np
import re
import jieba
# 显示所有列
# pd.set_option('display.max_columns', None)
# 显示所有行
# pd.set_option('display.max_rows', None)
# 设置value的显示长度为100,默认为50
# pd.set_option('max_colwidth',100)
# 绘图相关
import matplotlib.pyplot as plt
from pyecharts.globals import CurrentConfig, OnlineHostType # 事先导入,防止不出图
from pyecharts import options as opts # 配置项
from pyecharts.charts import Bar, Scatter, Pie, Line,Map, WordCloud, Grid, Page # 各个图形的类
from pyecharts.commons.utils import JsCode
from pyecharts.globals import ThemeType,SymbolType
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots # 画子图
Информация о данных
Данные поступают от Naughty Baby tb, в основном сканируя 5 полей информации:
- цена
- магазин
- место отгрузки
- количество плательщиков
- Описание
При импорте данных выяснилось, что окончательное число равно 4450:
исследование данных
Просмотр основной информации о данных: размер данных, отсутствующие значения, тип данных
предварительная обработка данных
Предварительная обработка предназначена в основном дляПокупателииместо отгрузкиОсуществляются два поля информации:
1. Количество покупателей
Исходное количество покупателей представляет собой данные символьного типа, за каждым из которых следует «деньги народного банка», а некоторые со знаком «+».
Мы имеем дело с числовыми данными, в которых пропущенные значения заменены на 0:
df["人数"] = df["人数"].fillna("0人付款",inplace=False) # 缺失值处理
def change_buy_people(x):
if "+" in "x":
return x.split("+")[0]
elif "付款" in x:
return x.split("人")[0]
df["人数"] = df["人数"].apply(change_buy_people)
df
Второй шаг — удалить знак +:
Шаг 3: Обработка данных с десятками тысяч
Получите окончательный результат! ! !
2. Обработка места отгрузки
Если это внутренняя провинция и город, вырежьте его. В месте отгрузки есть зарубежные страны, такие как: США, Южная Корея и т. Д.
df["发货地"] = df["发货地"].fillna("无信息",inplace=False)
df["省_国家"] = df["发货地"].apply(lambda x: x.split(" ")[0] if " " in x else x)
df["市"] = df["发货地"].apply(lambda x: x.split(" ")[1] if " " in x else x)
df.head()
Выше описан весь процесс обработки данных, понимаете?
анализ данных
Анализ данных не показывает конкретный процесс обработки данных, а в основном показывает результаты:
- Анализ количества магазинов
- ценовой анализ
- Анализ покупателя
- Анализ отгрузки
- Описательное облако слов
Анализ количества магазинов
Глядя на распределение количества магазинов в полученных нами данных, мы выделили топ-30:
- Tmall Global имеет самые связанные магазины
- Бренд: У Watsons больше всего
Показана доля магазинов:Тем не менее у Tmall больше всего магазинов
ценовой анализ
Цена помады бывает высокой и низкой, давайте сначала посмотрим на конкретную числовую ситуацию:
- Средняя цена 165 юаней!правда или ложь?
- Самая высокая цена за единицу в данных составляет 6160 юаней! ! ! Это очень дорого ?
Взгляните на распределение данных через диаграмму скрипки: конечно же, самое высокое значение 6160 — это возмутительно!
Посмотрите на карту распределения цен разных магазинов: мы нашли самый дорогой магазин
Кристиан Лубутен: китайское имяСкипетр королевы, самая привлекательная помада~
Картинка ниже с официального сайта, выглядит очень дорого~ Давайте не будем нажимать, чтобы посмотреть
Анализ плательщика
У каждого магазина губной помады есть свое количество плательщиков. Сначала посмотрите на общую ситуацию с данными:
в заключении:
- Среднее количество плательщиков 1220, и я не знаю, много это или мало? Разве он не должен быть ниже?
- Максимальная выплата в магазине 350 000, что потрясающе!
Посмотрим на распределение данных:Ведь есть всего несколько магазинов с очень большим количеством плательщиков.
Анализ количества плательщиков в магазине
На рисунке ниже показано количество платежей за помаду в разных магазинах, и мы выяснили, что:
- Флагманский магазин Perfect Diary — самый, очень популярный
- Также много платежей во флагманских магазинах зарубежных брендов, таких как mac, colorkey и 3ce.
- Когда мы подсчитали среднее количество плательщиков в одном магазине, первое место занял colorkey.
На графике выше показано количество плательщиков на магазин.
На графике ниже показано среднее количество плательщиков на магазин.
введение бренда:
1, колорки колаки,Meishang (Гуанчжоу) Cosmetics Co., Ltd.бренд косметики. Продукция включает средства для лица, глаз, губ, средства для снятия макияжа, косметические инструменты и ароматы.
2. Perfect Diary: Guangzhou Yixian E-Commerce Co., Ltd., Perfect Diary стремится исследовать европейские и американские тенденции моды, в то же время сочетая черты лица и кожи азиатских людей для разработки серии высококлассных товаров. качественная, продуманная и простая в использовании косметика для нового поколения женщин.
3. Хуаксизи: ХуаксизиЧжэцзян Yige Enterprise Management Group Co., Ltd.Торговая марка косметики зарегистрирована в Государственном управлении по товарным знакам. В соответствии с характеристиками кожи и потребностями макияжа восточных женщин, цветочная эссенция иЭкстракты китайских трав.В качестве основного ингредиента он использует современные исследования и разработки в области макияжа и производственные процессы для создания здоровых, питающих кожу косметических продуктов, подходящих для восточных женщин (из энциклопедии Baidu и Википедии).
Первые два — это местные бренды в Гуанчжоу, в самом Гуанчжоу хорошо развита индустрия макияжа и красоты, а третий — это бренд в Ханчжоу.
Анализ отгрузки
График вышеДля внутренних отправлений, также показано распределение цвета в данных и на картеГуандун, Чжэцзян и ШанхайПроисхождение доставки является наиболее
На приведенном ниже рисунке показаны все отображаемые места доставки, такие как США, Япония и Южная Корея за границей. Большинство магазинов, осуществляющих доставку товаров, находятся в основном в Гуандуне, Шанхае, Чжэцзяне, Цзянсу и других регионах.
Описательное облако слов
Нарисуйте описанную текстовую информацию в облако слов:
Мы смотрим на эффект первых 50 слов:помада, матовая, увлажняющая, бальзам для губ, натуральнаяи другие слова — это часто встречающиеся слова, которые появляются в магазине
Анализ количества брендов губной помады
Соответствующая бренду информация в описании каждого магазина:
x_data = df9["index"].tolist()[:20]
y_data = df9["品牌"].tolist()[:20]
c = (
Pie(init_opts=opts.InitOpts(theme=ThemeType.MACARONS))
.add("",
[list(z) for z in zip(x_data, y_data)])
.set_global_opts(
title_opts=opts.TitleOpts(title="口红品牌数量"),
legend_opts=opts.LegendOpts(type_="scroll", pos_left="90%", orient="vertical"),
)
.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)
c.render_notebook()
Суммировать
Эта работа по анализу данных действительно проницательна:
- Сканирование данных позволило получить новые знания, а обработка данных также использовала новые методы.
- Самое главное - иметь более глубокое представление о губной помаде, ведь их так много! ! !
Наконец, позвольте мне поделиться с вами веб-сайтом, который Питер случайно нашел на GitHub:Венли Чжан.com/lipstick/?day…
Это сайт визуализации губной помады, сделанный блогером. На сайте мы можем увидеть множество марок помады. Если вам интересно, вы можете поиграть с ними~ Начало статьи - изображение этого сайта.
- Мы можем нажать на один из цветов
- Конкретная информация будет отображаться в верхнем левом углу.