0x00 Предисловие
Когда вы впервые начали заниматься разработкой данных, вы часто слышали от корпоративных наставников, что вы должны знать о данных. Вы не можете просто опустить голову и запрашивать одно требование за другим. Вы должны понимать данные с точки зрения бизнеса, чтобы Ваша карьерная линия может быть длиннее.
В этой статье мы не будем делиться смыслом данных, который тесно связан с бизнесом, но представим некоторые из самых основных материалов, которые будут задействованы в различных бизнесах:
- Распределение основных параметров данных. Распределение основных бизнес-измерений в основном относится к распределению таких измерений, как возраст, регион и пол.
- Калибр данных: Калибр данных можно понимать как диапазон значений поля с одинаковым именем в разных таблицах.
0x01 Распределение размеров ядра данных
Распределение основных параметров в основном относится к распределению содержимого наиболее важных столбцов данных, таких как самая основная информация о возрасте, поле и городе пользователей. Это наиболее часто используемое распределение данных. Кроме того, оно будет включать некоторые бизнес-контент, такой как «Скажи положение дел людей в разных провинциях», сравнение информации о мужской и женской активности в разные периоды времени и т. д. Если есть таблица портретов пользователей, она также должна включать распределение измерений в различных портретах.
Поэтому, если делать грубое деление, то это три части: 1. Базовая информация, 2. Деловое поведение, 3. Портрет пользователя. Могут ли эти три части помочь нам понять, как выглядит пользователь? Лучшее понимание бизнеса может способствовать более глубокому пониманию данных.
Вышеприведенное изображение является грубым изображением, которое я нарисовал Конкретное содержание должно быть разделено и заполнено подробно в соответствии с бизнесом. Вы понимаете содержание этих данных? Если вы этого не знаете, просто разберитесь.
0x02 апертура данных
Что касается калибра данных, сложно дать ему точное и авторитетное определение, приведем несколько примеров для иллюстрации:
- Предположим, что значения поля пол в таблице А равны 0, 1, 2 (неизвестно, мужчина, женщина), а значения в таблице В равны 0, 1, 2 (мужчина, женщина, неизвестно), что может быть из другого бизнеса Теперь вам нужно объединить два данных, чтобы рассчитать общее соотношение мужчин и женщин, Если вы не знаете калибр данных двух таблиц, что произойдет?
- Предположим, у вас есть много данных с полем ip.Когда ip пуст, значение по умолчанию равно 0. Если осуществляется доступ к новому фрагменту данных, его ip пуст, а значение по умолчанию равно null или -1.Ваша предыдущая программа может это ручка хорошо сделана?
- Затем возникает проблема детализации данных.Одно и то же поле age является конкретным значением возраста в таблице A и такими значениями, как 0-20 и 20-30 в таблице B. Что произойдет, если вы используете его напрямую?
Выше приведены некоторые примеры того, что я хочу сказать о калибре данных.Ниже приведена общая карта разума для справки.
Что касается проблемы калибра данных, то, как избежать и решить эти проблемы, можно решить с помощью строки кода или заранее согласованных правил, но мы должны сначала иметь это осознание.С таким осознанием мы находимся в процессе доступа и обработки Когда возникает проблема, ее можно предсказать заранее или проблему можно быстро найти и решить.
0x02 Сводка
Содержание этой статьи состоит в том, чтобы надеяться, что партнеры по данным смогут понять данные на уровне, относительно близком к данным или близкому к бизнесу.
Распределение основных измерений данных позволяет вам иметь более глобальный контроль над вашими данными, а проблема калибра данных позволяет вам понимать данные с более микроскопической точки зрения, чтобы лучше обрабатывать данные.
Добро пожаловать в мой публичный аккаунт WeChat! Придерживайтесь оригинального обмена технологиями, ваша поддержка побудит меня продолжать творить! наградаWeChat Pay
- Автор этой статьи:Мастер Мудонг
- Ссылка на эту статью: Город Муданьцзян.info/2018/01/17/…
- Уведомление об авторских правах:Все статьи в этом блоге, если не указано иное, используютCC BY-NC-SA 3.0соглашение. Пожалуйста, укажите источник!