Как получить индекс оценки достоверности, когда распределение данных непоследовательно

анализ данных
Как получить индекс оценки достоверности, когда распределение данных непоследовательно

задний план

В работе и учебе нам часто нужно оценивать данные в определенном измерении, например, в следующем примере мы хотим посчитать прибыль одного продукта на двух платформах (например, мы хотим сообщить продавцу, какая платформа имеет более высокую прибыль), пример не очень строгий, но упрощенный для удобства.

товар разовая прибыль Объем заказа Платформа
A 10 10 сокровище
B 5 30 сокровище
C 30 20 сокровище
D 100 1 сокровище
B 10 1 какой-то восток
C 35 20 какой-то восток
D 100 40 какой-то восток
E 40 80 какой-то восток

Если мы посмотрим на разные платформы, мы легко можем столкнуться с некоторыми проблемами, например, товар А продается в определенном кладе, но не в определенном кладе, а товар Е продается в определенном востоке, но не в определенном кладе. Другими словами, когда мы получаем некоторые данные, мы не можем сравнивать идеальные контрольные переменные (непоследовательное распределение данных), поэтому нам нужно выбрать определенный способ, чтобы попытаться избежатьраспределение данныхвлияние на показатели оценки.

Несколько методов расчета индекса оценки

простой метод оценки

После получения данных наш самый интуитивный способ — напрямую передатьОбщая прибыль / Всего товаровПолучите прибыль от одного предмета, вы можете сказать торговцу, продает ли определенный восток или определенное сокровище один предмет товара с более высокой прибылью. Согласно этой идее, статистические результаты

сокровище

10×10+5×30+30×20+100×110+30+20+1=95061=15.57\frac{10 \times 10 + 5 \times 30 + 30 \times 20 + 100 \times 1}{10 + 30 + 20 + 1} = \frac{950}{61} = 15.57

какой-то восток

10×1+35×20+100×20+40×801+20+20+80=5910121=48.84\frac{10 \times 1 + 35 \times 20 + 100 \times 20 + 40 \times 80}{1 + 20 + 20 + 80} = \frac{5910}{121} = 48.84

Отсюда вывод, что прибыль от куска донга на 213,7% выше, чем от клада!

Почему он такой высокий?Проблема в том,что на определенном востоке есть много продуктов D и E,и соответствующие клады соответствуют продуктам A и B(распределение данных определенного востока и определенного клада сильно отличается из-за разницы платформ . ), сравнивать напрямую не объективно, т.к. для одного и того же торговца он хотел бы видетьСравнение прибыли от одного и того же вида товаров на неком востоке и некоего сокровища!

Тогда почему бы не сравнить каждый продукт отдельно?

Да, но если товаров много, анализировать их по отдельности будет очень долго, и мы обсудим, как использовать индикатор, чтобы описать их более объективно.

Разумный метод управляющей переменной - взять пересечение

На основе вышеприведенного сравнения несколько более разумным способом будет сравнение только тех товаров, которые имеют и то, и другое, т. е. сравнение B, C, D.

сокровище

5×30+30×20+100×130+20+1=85051=16.67\frac{5 \times 30 + 30 \times 20 + 100 \times 1}{30 + 20 + 1} = \frac{850}{51} = 16.67

какой-то восток

10×1+35×20+100×201+20+20=271041=66.10\frac{10 \times 1 + 35 \times 20 + 100 \times 20}{1 + 20 + 20} = \frac{2710}{41} = 66.10

Отсюда вывод, что прибыль от куска донга на 296,5% выше, чем от клада!

Глядя на данные, это еще более возмутительно. . .

Поскольку это просто пересечение данных, это все еще не решает проблему непоследовательного распределения данных.Товар D оказывает большое влияние на результаты (что-то продается больше, какое-то сокровище продается меньше), и мы предпочитаем сравнивать товар C Это много вещей, продаваемых на обеих платформах.

Разумный метод контрольных переменных – взять образцы пересечения и веса

Следовательно, в случае взятия пересечения выборок, нам нужно задать вес выборкам, какие выборки более достоверны, а какие нет. Принцип настройки таков

  • Когда образец x продается много на определенном востоке, а сокровище продается много, мы думаем, что образец очень уверен.
  • Sample x продается больше только на одной платформе, мы не думаем, что это очень заслуживает доверия

Таким образом, метод взвешивания может быть (только для справки)

WX=sxкакой-то востокsxсокровищеW_{X} = \sqrt{s_x^{Некоторый Восток}s_x^{Некоторое Сокровище}}

вsxкакой-то востокs_x^{что-то}Представляет собой количество единиц товара x, проданных на определенном востоке,sxсокровищеs_x^{какое-то сокровище}Указывает количество единиц товара x, проданных в кладе.

Таким образом, мы можем получить веса пар B, C, D как

товар вес w нормализация веса
B 30 0.0638
C 400 0.8511
D 40 0.0851

Используя веса для взвешивания, результаты следующие:

сокровище

5×30×30+30×20×400+100×1×4030×30+20×400+1×40=2485008940=27.80\frac{5 \times 30 \times 30 + 30 \times 20 \times 400+ 100 \times 1 \times 40}{30 \times 30 + 20 \times 400 + 1 \times 40} = \frac{248500}{8940} = 27.80

какой-то восток

10×1×30+35×20×400+100×20×401×30+20×400+20×40=3583008830=40.58\frac{10 \times 1 \times 30 + 35 \times 20 \times 400 + 100 \times 20 \times 40}{1 \times 30 + 20 \times 400 + 20 \times 40} = \frac{358300}{8830} = 40.58

Следовательно, вывод таков, что прибыль на единицу определенного сокровища на 45,0% выше, чем у определенного сокровища!

Выглядит более разумно.

Суммировать

Вышеизложенное представляет собой простой метод взвешивания для решения проблемы получения более объективных результатов оценки при непостоянстве выборочного распределения.На что нам нужно обратить больше внимания, так это

  • Есть ли проблема непоследовательного распределения выборки при оценке? Если он существует, как его решить?
  • Является ли индекс оценки достоверным

Что касается несоответствия распределения выборки, как оценить такого рода проблемы, есть аналогичныеметаанализ