Как вы можете быть выше милосердия, когда дело доходит до разговоров на актуальные темы?
Фото:Zakaria ZayaneonUnsplash
Релевантность: барьер в аналитике
«Корреляция, а не причинность» — это фраза, которую вы часто слышите в аналитике (с этого момента я буду сокращать ее CINC, я предпочитаю слышать ее как «кинк»). Много раз в своей карьере я видел, как бизнес-аналитик или специалист по обработке данных создавали диаграмму рассеяния данных, показывающую корреляцию между двумя переменными A и B, с этим ритуальным предупреждением. К сожалению, в 90% случаев они делают одно из двух.
- Например: «Мы видим, что количество полученных маркетинговых писем коррелирует с ценностью жизненного цикла клиента. Конечно, корреляция не является причинно-следственной связью. В этом случае давайте теперь поговорим о том, как мы можем усилить наши маркетинговые усилия, чтобы повысить ценность жизненного цикла клиента. ". В этом случае CINC — не более чем тонкая оговорка, призванная защитить задницу аналитиков, когда вы по глупости верите их выводам.
- Или, говорят они, вы не сможете сделать никаких дальнейших выводов, если не проведете рандомизированный эксперимент. Этот подход более распространен среди статистически подготовленных аналитиков и имеет то преимущество, что он является интеллектуально честным. На практике, однако, деловые партнеры, как правило, просто кивают головой и строят планы на основе переменной А, ведущей к переменной Б, когда говорящий выходит из комнаты.
Однако эта прискорбная ситуация не обязательно является нормой. Всякий раз, когда мы наблюдаем корреляцию в данных, на самом деле существует ограниченное количество возможных случаев за пределами переменной A, вызывающей переменную B.
- Наблюдаемые корреляции не отражают истинных корреляций в интересующей популяции.
- Переменная B вызывает переменную A.
- Переменная A и переменная B имеют общую причину.
- Здесь действует более сложная причинно-следственная структура.
1.1. Нет реальной корреляции
В самом простом случае корреляция в интересующей совокупности фактически отсутствует. Для этого есть два случая: шум (также известный как вариация выборки) и смещение.
шум.Во-первых, если ваша выборка «слишком мала» или если вы рисуете слишком много подряд (то есть фишинг), наблюдаемая корреляция может быть просто случайной случайностью. Это настоящая проблема, особенно если вы полагаетесь на p-значения как на меру значимости, а не на доверительные интервалы для определения экономической значимости, но я бы не стал на этом останавливаться. Я чувствую, что большинство людей довольно хорошо понимают эту ловушку, и в большинстве деловых ситуаций выборка не так уж и мала. Если у вас есть миллион строк, вариации выборки должны быть последними в вашем списке потенциальных проблем. Если ваша выборка слишком мала, используйте более надежную метрику, например медиану, вместо среднего. Надежность медианы часто недооценивается даже в очень маленьких выборках (математика в приложении).
**отклонение. **Погрешность возникает, когда ваша выборка недостаточно репрезентативна для населения, за которым вы следите. Например, «все клиенты с активными учетными записями за последний год» обычно являются разумным представлением «всех клиентов с активными учетными записями в следующем году». С другой стороны, «все клиенты, имевшие активную учетную запись _ и предоставившие адрес электронной почты _ в прошлом году» — нет. Смещение — более коварная проблема, чем шум, так как даже большие выборки могут стать его жертвой, как показано в недавнем исследовании COVID [1].
Однако избежать предвзятости или, по крайней мере, распознать ее не так уж сложно. Просто запишите свое определение выборки и свое определение интересующей совокупности как можно точнее. Если ваша выборка действительно случайным образом взята из вашей популяции, все в порядке. В любой другой ситуации может быть предвзятость, например, если у вас есть случайный доступ к некоторым людям в вашей совокупности, но ваша выборка включает только тех, кто ответил или дал полные ответы. Попытайтесь определить подкатегории, которые относятся к интересующей вас совокупности, но могут отсутствовать или быть недостаточно представленными в вашей выборке. Доводя это до предела, если бедные пожилые женщины с инвалидностью и без подключения к Интернету являются частью вашего населения, достаточно ли вы достигаете их?
Если вы думаете: «Но это лишь малая часть моего населения!», я прошу вас подумать еще раз. Подкатегории могут составлять значительную долю вашего населения, даже если каждая из них невелика. Они также могут быть просто маленькими с вашей личной точки зрения. В настоящее время я живу в Западной Африке, и недавно у меня возникли трудности с обновлением моего iPhone: ему нужно 1) загрузить несколько гигабайт данных, 2) через WiFi (другая точка доступа телефона не работает), 3) во время зарядки. Но в развивающихся странах, где у типичного владельца смартфона может не быть Wi-Fi дома (их смартфон — единственный способ выйти в интернет), пропускная способность Wi-Fi в магазинах часто ограничена, если они даже позволяют использовать электрическую вилку. Если вы живете на западном побережье США, это может быть «крайний случай», но он может охватывать сотни миллионов, если не миллиарды пользователей смартфонов!
2. Обратная причинно-следственная связь (В вызывает А)
Следующая возможность состоит в том, что корреляция между переменными A и B может быть связана с тем, что переменная B вызывает переменную A, а не наоборот. Например, корреляция между количеством полученных маркетинговых электронных писем и ценностью жизненного цикла клиента может быть связана с тем, что электронные письма отдела маркетинга нацелены на клиентов с высоким LTV. Как только вы учтете эту возможность, в целом станет совершенно очевидно, что это происходит с вашими данными.
3. Смешивание факторов (А и В имеют общую причину)
Последний «легкий» случай — это когда у А и В общая причина. Например, возможно, маркетинговые бюджеты распределяются на уровне штата в США или на национальном уровне в международном масштабе. Тогда клиент в Калифорнии (в США) может иметь более высокий LTV и получать больше маркетинговых электронных писем, чем клиент в Теннесси (в Нигерии). Опять же, как только вы учли эту возможность, это довольно очевидно в ваших данных в целом.
4. Другие ситуации (более сложные причинно-следственные структуры)
Первые 3 случая, вероятно, представляют 90% ситуаций, с которыми вы столкнетесь на практике, но технически они не охватывают все возможности. Для полноты картины кратко расскажу о том, что еще есть.
Более сложный класс каузальных структур — это когда вы явно или неявно контролируете переменную, которую не должны контролировать. Например, один медик обнаружил, что использование жгута в полевых условиях обратно пропорционально выживанию; проблема заключалась в том, что его анализ основывался на солдатах, прибывающих в полевые госпитали. Но главное преимущество жгута в том, что он позволяет солдатам с серьезными ранениями дожить до госпиталя, а не потерять слишком много крови. Это означает, что в целом выживет больше солдат, но меньший процент тех, кто доберется до больницы, потому что мы добавляем к ней более тяжелые случаи [2]. В качестве примечания, этот пример также можно интерпретировать как предвзятость при сборе данных (т.е. наблюдаемая отрицательная корреляция не является репрезентативной для интересующей совокупности), предполагая, что сбор данных и анализ данных не настолько независимы, как это часто предполагается.
Наконец, у нас есть ситуации, которые, кажется, созданы природой, чтобы сбивать с толку ученых. Например, известно, что аутизм в течение некоторого времени связан с более простым микробиомом кишечника (то есть с менее разнообразной группой бактерий в кишечнике). Означает ли это, что микробиом вызывает аутизм? Недавнее исследование предполагает, что «нет, все наоборот»: дети с аутизмом часто сидят на строгой диете, потому что сенсорный опыт может их подавлять, а ограниченное разнообразие продуктов приводит к ограниченному разнообразию микробиомов. Но затем, как вы объясните, что фекальные трансплантаты улучшают поведение детей с аутизмом? Появляется гипотеза о том, что «трансплантация кала улучшает поведение детей с аутизмом, облегчая неприятные симптомы, непосредственно вызванные несбалансированным микробиомом, но не влияет на нервную основу состояния» [3]. Тогда будет соответствующая причинно-следственная диаграмма.
В конечном счете, научный прогресс достигается за счет разработки все более точных и полных моделей, учитывающих все имеющиеся факты. То же самое относится и к бизнесу. Для достижения глубокого понимания поведения клиентов (или сотрудников) необходимо построить точные причинно-следственные диаграммы, как я объясняю в своей книге.Поведенческий анализ данных с помощью R и Python [4].
Обзор и заключение
Всякий раз, когда вы наблюдаете корреляцию между переменными A и B в своих данных, есть ровно 4 возможности, кроме A, вызывающей B.
- Наблюдаемые корреляции не отражают истинных корреляций в соответствующей совокупности, что может быть связано с шумом выборки или систематической ошибкой.
- Переменная B вызывает переменную A.
- Переменная A и переменная B имеют общую причину.
- Здесь действует более сложная причинно-следственная структура.
Это означает, что вам не нужно ограничивать себя «корреляцией, а не причинно-следственной связью». Тщательно обдумав другие возможности и исключив маловероятные, вы можете прийти к выводу: «Эта корреляция может отражать причинно-следственную связь, и как только мы определим действия, которые необходимо предпринять, они будут определены с помощью А/В-теста. подтвердить". Если все становится слишком сложным, вы можете построить диаграммы причин и следствий, чтобы определить, что произошло.
использованная литература
[1]новости.Гарвард.Сумма/бюллетень/Камни….
[2] Этот пример взят из Judea Pearl & Dana MacKenzie.Книга Почему. Новая наука о причине и следствии.
[3] Экономист,«Как расстройства микробиома кишечника связаны с аутизмом».
[4] Florent Buisson, Поведенческий анализ данных с помощью R и Python. Данные, ориентированные на клиентов, для реальных бизнес-результатов.
Вы также можете ознакомиться с моими предыдущими статьями на Medium.
- Являются ли ваши поведенческие данные реальным поведением?
- Отбросить p-значения. Вместо этого используйте доверительные интервалы Bootstrap
- Зиллоу «проклят»? Перспектива поведенческой экономики
- Чем занимаются менеджеры по поведенческим наукам в компаниях из списка Fortune 100?
приложение. Надежность медианной оценки
Помните, что по определению медиана популяции выглядит примерно так: половина популяции имеет значение ниже нее, а половина популяции имеет значение выше нее. Это справедливо независимо от формы распределения данных, количества пиков и т. д.
Это означает, что если вы случайно выберете два значения x и y из этой совокупности, есть 4 возможности.
- Все они ниже медианы популяции с вероятностью 0,5*0,5=0,25.
- Они оба выше медианы населения с вероятностью 0,25.
- Один ниже медианы населения, а другой выше медианы населения с вероятностью 0,5.
В более общем случае, если у вас есть N числовых значений.
- Все они ниже медианы с вероятностью 0,5^N.
- Все они выше медианы с вероятностью 0,5^N.
- Медиана находится между самым низким и самым высоким значениями N с вероятностью 1-2 * (0,5 ^ N).
Это означает, что даже при выборке всего из 5 значений с вероятностью 94 % медиана совокупности находится в окружении вашей выборки. При 10 значениях вероятность достигает 99,8%. Теперь я не могу гарантировать, что вас устроит размер этого доверительного интервала, но, по крайней мере, у вас будет довольно четкое представление о важности вариации выборки в рассматриваемой ситуации.
Correlation Is Not Causation...Or Is It?Первоначально опубликовано вTowards Data Scienceна Medium, где люди продолжают общение, выделяя и отвечая на эту историю.