Изучите 5 общих законов анализа данных, повысьте чувствительность данных на N градусов

анализ данных Большие данные

Иногда при общении с технологиями или бизнесом, если другая сторона время от времени имеет такой эффект, то я никогда не слышал о законе, поэтому я могу только делать вид, что понимаю его.

На самом деле ничего загадочного в этих понятиях нет.Мы разобрали общие эффекты и законы в области математики и объяснили их простыми для понимания примерами., чтобы каждый мог быстро понять и освоить!

1. Парадокс Симпсона

Парадокс Симпсона означает, что при сравнении данных двух групп AB и разделении данных на несколько измерений производительность группы A лучше, чем у группы B в каждом измерении, но общая производительность группы A не обязательно лучше, чем у группы A. группа А.Б.

学会5个数据分析常见定律,数据敏感度提升N个度

Не понимаю? Давай, объясни на примере

В последнее время предложения поступили от всех крупных университетов Великобритании. В результате два колледжа в определенном колледже, юридический и гуманитарный, были заподозрены в дискриминации по признаку пола при приеме. Давайте посмотрим на ситуацию с приемом и проанализируем Это.

学会5个数据分析常见定律,数据敏感度提升N个度

Прием в юридические школы

学会5个数据分析常见定律,数据敏感度提升N个度

Прием на факультет искусств

Судя по данным о коэффициенте приема в таблице, коэффициент приема девочек на 33,6%>15,1% выше, чем у мальчиков, и 91,1%>80,1%.

Но после объединения данных двух колледжей

学会5个数据分析常见定律,数据敏感度提升N个度

Сводка данных о школе права и школе гуманитарных наук

Выясняется, что процент поступления девочек ниже, чем мальчиков.

Это классический парадокс Симпсона, то есть при определенных условиях два набора данных будут удовлетворять определенным свойствам при отдельном обсуждении, но если их рассматривать вместе, они могут привести к противоположным выводам.

На самом деле, «деревня окружает города и захватывает власть с оружием в руках» имеет схожую идею.

2. Эффект Мэтью

Эффект Матфея исходит из библейской басни: «Кто имеет, тому дано будет вдвое, и прибавится; а если не имеет, отними, что имеет, и пусть не будет у него совсем ничего». Говоря простым языком, «сильный становится сильнее, а слабый — слабее».

学会5个数据分析常见定律,数据敏感度提升N个度

Эффект Мэтью очень распространен в бизнесе. Например, в алгоритме рекомендации пользователи, которые оцениваются как более качественные, получат больше ресурсов, что также сформирует обратную связь. больше лайков).

3. Закон Бенфорда

Закон Бенфорда означает, что в наборе данных, полученных из реальной жизни, вероятность появления числа с 1 в качестве первой цифры составляет около 30% от общего числа.Этот закон пока строго не доказан.

Он как индикатор мониторинга: когда набор данных не соответствует закону Бенфорда, есть основания подозревать, что данные фальшивые. Поэтому этот закон часто используется для определения того, являются ли финансовые отчеты зарегистрированных на бирже компаний мошенническими и имеют ли место мошенничества на выборах.

学会5个数据分析常见定律,数据敏感度提升N个度

Следует отметить, что его можно использовать для проверки того, являются ли различные данные мошенническими, но обратите внимание на условия использования: 1. Не менее 3000 транзакций с данными 2. Никаких манипуляций со стороны человека.

4. Предвзятость выжившего

Предвзятость выжившего — это принцип, естественным образом выбранный после выживания наиболее приспособленных: невыжившие больше не могут говорить.

Люди видят только результаты, полученные в результате какого-то просеивания, и не понимают, что игнорируют людей, которых отсеивают.

学会5个数据分析常见定律,数据敏感度提升N个度

Например, все наверняка слышали такое предложение: «Что толку читать, мои одноклассники в начальной школе были в беспорядке с тех пор, как он был ребенком, и он бросил учебу, не закончив среднюю школу. Сейчас дела идут хорошо, и Я еще не окончил школу. 996 снимает комнату и ест лапшу быстрого приготовления».

Однако фактическая ситуация такова, что дети в классе, которые умеют читать, также будут иметь хороший бизнес в будущем, некоторые будут арендовать, чтобы есть лапшу быстрого приготовления, а некоторые будут есть дома, но средний уровень жизни выше, чем у детей. тех, кто не читает. Но некоторые дети, которые не учатся, могут залезть в долги, потерять работу и остаться без работы... Этих людей не видно, видны только выжившие, а бизнес идет отлично.

5. Закон Парето

Возможно, вам не знакомо это имя, но вы, должно быть, слышали о правиле 28/28.Парето, ученый-менеджер, в результате исследования большого количества фактов обнаружил: 20% людей в обществе владеют 80% акций. социальное богатство.

Например, только 20% активных пользователей платят, а 20% платящих пользователей приносят 80% дохода и т. д. Конечно, 20% и 80% — это просто статистика, и по сути они говорят о том, что «существует неуравновешенная связь между причиной и следствием, усилием и выигрышем», то есть определенность и предсказуемость неуравновешенной связи.

学会5个数据分析常见定律,数据敏感度提升N个度

Правило 28 советует нам сосредоточиться на более важных вещах: делать что-то без планирования, скорее всего, потратит 80% энергии на производство 20% вещей.

В оценочной работе некоторые студенты могут часто чувствовать себя так при анализе: они прогоняли данные n листов, а когда писали отчет, использовали только четыре или пять данных.

Итак, привычка анализироватьСначала подумайте о причине проблемы и присвойте каждой возможной причине соответствующий вес, а затем используйте самый простой и удобный метод для проверки каждой причины и быстрого устранения неверного направления., а не подробное объяснение каждой причины.