Получив более 4000 данных о губной помаде на TaoBao, я обнаружил, что…

рептилия анализ данных
Получив более 4000 данных о губной помаде на TaoBao, я обнаружил, что…

Получив более 4000 данных о губной помаде на TaoBao, я обнаружил, что…

Всем привет, меня зовут Питер~

Недавно я, наконец, начала заниматься помадой~ Я получила более 4000 данных о помаде из Интернета, провела обработку и анализ данных. Это похоже на открытие нового мира!

Интересно, что означает эта картинка? Пожалуйста, прочитайте полный текст~

библиотека импорта

import pandas as pd
import numpy as np
import re 
import jieba

# 显示所有列
# pd.set_option('display.max_columns', None)

# 显示所有行
# pd.set_option('display.max_rows', None)

# 设置value的显示长度为100,默认为50
# pd.set_option('max_colwidth',100)

# 绘图相关
import matplotlib.pyplot as plt
from pyecharts.globals import CurrentConfig, OnlineHostType   # 事先导入,防止不出图
from pyecharts import options as opts  # 配置项
from pyecharts.charts import Bar, Scatter, Pie, Line,Map, WordCloud, Grid, Page  # 各个图形的类
from pyecharts.commons.utils import JsCode   
from pyecharts.globals import ThemeType,SymbolType

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots  # 画子图

Информация о данных

Данные поступают от Naughty Baby tb, в основном сканируя 5 полей информации:

  • цена
  • магазин
  • место отгрузки
  • количество плательщиков
  • Описание

При импорте данных выяснилось, что окончательное число равно 4450:

исследование данных

Просмотр основной информации о данных: размер данных, отсутствующие значения, тип данных

предварительная обработка данных

Предварительная обработка предназначена в основном дляПокупателииместо отгрузкиОсуществляются два поля информации:

1. Количество покупателей

Исходное количество покупателей представляет собой данные символьного типа, за каждым из которых следует «деньги народного банка», а некоторые со знаком «+».

Мы имеем дело с числовыми данными, в которых пропущенные значения заменены на 0:

df["人数"] = df["人数"].fillna("0人付款",inplace=False)  # 缺失值处理

def change_buy_people(x):
    if "+" in "x":
        return x.split("+")[0]
    elif "付款" in x:
        return x.split("人")[0]
      
df["人数"] = df["人数"].apply(change_buy_people)
df

Второй шаг — удалить знак +:

Шаг 3: Обработка данных с десятками тысяч

Получите окончательный результат! ! !

2. Обработка места отгрузки

Если это внутренняя провинция и город, вырежьте его. В месте отгрузки есть зарубежные страны, такие как: США, Южная Корея и т. Д.

df["发货地"] = df["发货地"].fillna("无信息",inplace=False)

df["省_国家"] = df["发货地"].apply(lambda x: x.split(" ")[0] if " " in x else x)
df["市"] = df["发货地"].apply(lambda x: x.split(" ")[1] if " " in x else x)
df.head()

Выше описан весь процесс обработки данных, понимаете?

анализ данных

Анализ данных не показывает конкретный процесс обработки данных, а в основном показывает результаты:

  • Анализ количества магазинов
  • ценовой анализ
  • Анализ покупателя
  • Анализ отгрузки
  • Описательное облако слов

Анализ количества магазинов

Глядя на распределение количества магазинов в полученных нами данных, мы выделили топ-30:

  • Tmall Global имеет самые связанные магазины
  • Бренд: У Watsons больше всего

Показана доля магазинов:Тем не менее у Tmall больше всего магазинов

ценовой анализ

Цена помады бывает высокой и низкой, давайте сначала посмотрим на конкретную числовую ситуацию:

  • Средняя цена 165 юаней!правда или ложь?
  • Самая высокая цена за единицу в данных составляет 6160 юаней! ! ! Это очень дорого ?

Взгляните на распределение данных через диаграмму скрипки: конечно же, самое высокое значение 6160 — это возмутительно!

Посмотрите на карту распределения цен разных магазинов: мы нашли самый дорогой магазин

Кристиан Лубутен: китайское имяСкипетр королевы, самая привлекательная помада~

Картинка ниже с официального сайта, выглядит очень дорого~ Давайте не будем нажимать, чтобы посмотреть

Анализ плательщика

У каждого магазина губной помады есть свое количество плательщиков. Сначала посмотрите на общую ситуацию с данными:

в заключении:

  1. Среднее количество плательщиков 1220, и я не знаю, много это или мало? Разве он не должен быть ниже?
  2. Максимальная выплата в магазине 350 000, что потрясающе!

Посмотрим на распределение данных:Ведь есть всего несколько магазинов с очень большим количеством плательщиков.

Анализ количества плательщиков в магазине

На рисунке ниже показано количество платежей за помаду в разных магазинах, и мы выяснили, что:

  • Флагманский магазин Perfect Diary — самый, очень популярный
  • Также много платежей во флагманских магазинах зарубежных брендов, таких как mac, colorkey и 3ce.
  • Когда мы подсчитали среднее количество плательщиков в одном магазине, первое место занял colorkey.

На графике выше показано количество плательщиков на магазин.

На графике ниже показано среднее количество плательщиков на магазин.

введение бренда:

1, колорки колаки,Meishang (Гуанчжоу) Cosmetics Co., Ltd.бренд косметики. Продукция включает средства для лица, глаз, губ, средства для снятия макияжа, косметические инструменты и ароматы.

2. Perfect Diary: Guangzhou Yixian E-Commerce Co., Ltd., Perfect Diary стремится исследовать европейские и американские тенденции моды, в то же время сочетая черты лица и кожи азиатских людей для разработки серии высококлассных товаров. качественная, продуманная и простая в использовании косметика для нового поколения женщин.

3. Хуаксизи: ХуаксизиЧжэцзян Yige Enterprise Management Group Co., Ltd.Торговая марка косметики зарегистрирована в Государственном управлении по товарным знакам. В соответствии с характеристиками кожи и потребностями макияжа восточных женщин, цветочная эссенция иЭкстракты китайских трав.В качестве основного ингредиента он использует современные исследования и разработки в области макияжа и производственные процессы для создания здоровых, питающих кожу косметических продуктов, подходящих для восточных женщин (из энциклопедии Baidu и Википедии).

Первые два — это местные бренды в Гуанчжоу, в самом Гуанчжоу хорошо развита индустрия макияжа и красоты, а третий — это бренд в Ханчжоу.

Анализ отгрузки

График вышеДля внутренних отправлений, также показано распределение цвета в данных и на картеГуандун, Чжэцзян и ШанхайПроисхождение доставки является наиболее

На приведенном ниже рисунке показаны все отображаемые места доставки, такие как США, Япония и Южная Корея за границей. Большинство магазинов, осуществляющих доставку товаров, находятся в основном в Гуандуне, Шанхае, Чжэцзяне, Цзянсу и других регионах.

Описательное облако слов

Нарисуйте описанную текстовую информацию в облако слов:

Мы смотрим на эффект первых 50 слов:помада, матовая, увлажняющая, бальзам для губ, натуральнаяи другие слова — это часто встречающиеся слова, которые появляются в магазине

Анализ количества брендов губной помады

Соответствующая бренду информация в описании каждого магазина:

x_data = df9["index"].tolist()[:20]
y_data = df9["品牌"].tolist()[:20]


c = (
    Pie(init_opts=opts.InitOpts(theme=ThemeType.MACARONS))
    .add("",
         [list(z) for z in zip(x_data, y_data)])
    .set_global_opts(
        title_opts=opts.TitleOpts(title="口红品牌数量"),
        legend_opts=opts.LegendOpts(type_="scroll", pos_left="90%", orient="vertical"),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}"))
)

c.render_notebook()

Суммировать

Эта работа по анализу данных действительно проницательна:

  1. Сканирование данных позволило получить новые знания, а обработка данных также использовала новые методы.
  2. Самое главное - иметь более глубокое представление о губной помаде, ведь их так много! ! !

Наконец, позвольте мне поделиться с вами веб-сайтом, который Питер случайно нашел на GitHub:Венли Чжан.com/lipstick/?day…

Это сайт визуализации губной помады, сделанный блогером. На сайте мы можем увидеть множество марок помады. Если вам интересно, вы можете поиграть с ними~ Начало статьи - изображение этого сайта.

  • Мы можем нажать на один из цветов
  • Конкретная информация будет отображаться в верхнем левом углу.