【Английский】Анализ данных здания

анализ данных
Roger Peng

На этой неделе мы с Хилари Паркер открыли наш «Книжный клуб».Not So Standard Deviationsгде мы будем обсуждать книгу Найджела КроссаDesign Thinking: Understanding How Designers Think and Work. We will be talking about how the work of designers parallels the work of data scientists and how many of the principles developed in design port over so well to data analysis. While data visualization has always taken cues from design, I think much broader aspects of data analysis could benefit from the work studying design. At any rate, I think this is a topic that should be discussed more amongst statisticians and data analysts.

Одно из первых откровений, которое я получил за последнее время, — это осознание того, что анализ данных — это не естественное явление. Вы не столкнетесь с анализом данных, гуляя по лесу. Анализы данных должны создаваться и строиться людьми.

One way to think about a data analysis is to think of it as a product to be designed. Data analysis is not a theoretical exercise. The goal is not to reveal something new about the world or to discover truth (although knowledge and truth may be important by-products). The goal of data analysis is to produce something useful. Useful to the scientist, useful to the product manager, useful to the business executive, or useful to the policy-maker. In that sense, data analysis is a fairly down-to-Earth activity.

Producing a useful product requires careful consideration of who will be using it. Good data analysis can be useful to just about anyone. The fact that many different kinds of people make use of data analysis is not exactly news, but what is new is the tremendous availability of data in general.

If we consider a data analysis as something to be designed, this provides for us a rough road map for how to proceed.

Questioning the Question

A favorite quotation from John Tukey, legendary statistician and data analyst at Princeton, is

Far better an approximate answer to the right question, which is often vague, than the exact answer to the wrong question, which can always be made precise.

Что означают эти слова в контексте анализа данных? При анализе данных мы часто начинаем с набора данных или вопроса. Но хорошие аналитики данных не решают поставленную перед ними проблему. Причина не обязательно в высокомерии. Часто проблема, как изначально было сказано, только первая попытка.И это нормально.

Хороший аналитик данных признает, что сама проблема требует изучения. Например, кто-то может спросить: «Загрязнение воздуха вредно для вашего здоровья?» Это отличный вопрос, критически важный для государственной политики, но его трудно сопоставить с конкретными данными. анализ.Существует много различных типов загрязнения воздуха, и есть много последствий для здоровья, о которых мы могли бы беспокоиться.Расстановка приоритетов и уточнение исходной проблемы является ключевым начальным шагом для любого анализа данных.По моему опыту, этот процесс обычно приводит к вопросу, который является более значимым и чей ответ может привести к четким действиям.

The first job of the data analyst is to discover the real underlying problem... Тот факт, что проблема, с которой мы столкнулись, может не совпадать с проблемой, с которой мы начали, не является чьей-то конкретной виной. Это просто природа вещей. Часто научные сотрудники приходят в мой офис, в основном, просто для того, чтобы поговорить. Они приходят с четкий вопрос, но по мере того, как я исследую и задаю вопросы: «Какие данные доступны?», «Какие действия могут привести к ответу на этот вопрос?», «Какие ресурсы доступны для проведения этого анализа?», «Возможно ли это собрать новые данные?» — вопрос может меняться и развиваться. Хорошие сотрудники не обижаются на этот процесс, а скорее ценят его, поскольку он оттачивает их мышление.

Плохой сотрудник приходит с целью передать вопрос и дождаться появления решения Я видел свою долю таких случаев, и это почти никогда не работает, за исключением, возможно, самых тривиальных проблем Процесс разработки хорошего анализа данных не может быть модульным, когда мы четко переходим от вопроса к данным, к анализу и к результатам, когда каждый человек выполняет свою работу и не разговаривает ни с кем другим. Можно было бы пожелать, чтобы это было так, потому что так было бы намного проще, но желание не делает это так.Это первоначальное обсуждение выяснения правильной проблемы является важной частью разработки анализа данных.Но если кто-то проводит тщательное обсуждение, мы еще не закончили задавать вопрос.

Иногда проблема не проясняется до тех пор, пока мы не попытаемся ее решить. Работа аналитика данных состоит в том, чтобы предложить решения проблемы, чтобы исследовать пространство проблемы. Например, в приведенном выше примере с загрязнением воздуха мы могли бы сначала выразить интерес глядя наparticulate matter air pollution. But when we look at the available data we see that there are too many missing values to do a useful analysis. So we might switch to looking at ozone pollution instead, which is equally important from a health perspective.

На этом этапе важно, чтобы вы не слишком углублялись в проблему, в которую нужно вложить много времени или ресурсов.Первая попытка изучить твердые частицы, вероятно, не включала ничего, кроме загрузки файла с веб-сайта. , но это позволило нам исследовать границу возможного. Иногда предлагаемое решение «просто работает», но чаще оно поднимает новые вопросы и заставляет аналитика переосмыслить основную проблему. Первоначальные попытки решения должны быть «набросками», или грубые модели, чтобы увидеть, будет ли что-то работать.Предварительные данные, полученные с помощью этих эскизов, могут быть полезны для определения приоритетов возможных решений и выработки окончательного подхода.

This initial process of questioning the question can feel frustrating to some, particularly for those who have come to the data analyst to get something done. Often to the collaborator, it feels like the analyst is questioning their own knowledge of the topic and is re-litigating old issues that have previously been resolved. The data analyst should be sensitive to these concerns and explain why such a discussion needs to be had. The analyst should also understand that the collaborator isэкспертом в своей области и, вероятно, действительно знает, о чем говорит. Для аналитика может быть лучшим подходом представить этот процесс как способ для аналитика узнать больше о рассматриваемом предмете, а не просто бросать вызов долгому устойчивые предположения или убеждения. Это имеет дополнительное преимущество в том, что оно действительно верно, поскольку аналитик, вероятно, не является экспертом в данных, находящихся перед ним. Задавая простые вопросы в попытке изучить предмет, часто сотрудники будут вынуждены повторно -посетить некоторые из их собственных идей и уточнить свое мышление по теме.

Engineering the Solution

Once we have refined the question we are asking and have carefully defined the scope of the problem we are solving, then we can proceed to engineer the solution. This will similarly be an iterative process, but we will be iterating over different things. At this point we will need a reasonably precise specification of the problem so that tools and methodologies can be mapped to various aspects of the problem. In addition, a workflow will need to be developed that will allow all of the interested parties to participate in the analysis and to play their proper role.

The analyst will need to setup the workflow for the analysisи адаптировать его к различным потребностям и возможностям сотрудников.Каждый проект, скорее всего, будет иметь свой рабочий процесс, особенно если в каждом проекте участвует разный набор сотрудников.Это не просто комментарий об инструментах, задействованных для управления рабочим процессом, но в более общем плане о том, как информация обменивается и передается разным людям. Иногда аналитик является «центральным узлом», через который проходит вся информация, а иногда это скорее «бесплатно для всех», где каждый разговаривает со всеми остальными. подход, но важно, чтобы все понимали, какой подход используется.

The analyst is also responsible for selecting the methodologies for obtaining, wrangling, and summarizing the data. One might need to setup databases to store the data or retrieve it. Statistical methodologies might be a t-test for a two group comparison or a regression model to look at multivariate relationships. The selection of these tools and methodologies will be guided in part by the specification of the problem as well as the resources available and the audience who will receive the analysis. Identifying the optimal methodological approach, given the constraints put on the problem, is the unique job of the analyst. The analyst may need to delegate certain tasks based on the expertise available on the team.

Wrangling the Team

В любом интересном или сложном анализе данных, скорее всего, будут участвовать люди из разных дисциплин.В академических кругах вы можете работать одновременно с биологом, инженером, программистом и врачом.В бизнесе вам может понадобиться взаимодействовать с финансистом. , маркетинг, производство и обработка данных в данном анализе.Сложной частью работы аналитика является одновременное управление интересами всех этих людей при их интеграции в окончательный анализ.

Проблема, стоящая перед аналитиком, заключается в том, что представители каждой дисциплины, вероятно, считают, что их интересы имеют приоритет над интересами всех остальных. что каждая дисциплина «привязана к первому месту», должны быть установлены приоритеты и должна быть сделана разумная оценка относительно того, какие проблемы следует решать в первую очередь, во вторую и т. д. Это деликатная операция со стороны аналитика, и он успешно справляется с ней. требует открытого общения и хороших отношений с сотрудниками.

Борьба за приоритет также является причиной того, что анализ данных может быть настолько сложным для модульного анализа.Если анализ передается от человека к человеку, то каждый человек склонен принимать свою конкретную дисциплинарную точку зрения на проблему и игнорировать других.Это является естественным явлением, и задача аналитика состоит в том, чтобы не допустить его возникновения, чтобы анализ не стал бессвязным или слишком сфокусированным на одном аспекте. В конечном счете, аналитик должен взять на себя ответственность видеть «общую картину» анализировать, взвешивать взгляды каждого соавтора и выбирать путь, приемлемый для всех.

Это непростая работа.

Please enable JavaScript to view the comments powered by Disqus. comments powered by Disqus