Один текст позволяет понять рабочий процесс экспертов по данным

Хотя ценность данных общепризнанна, для большинства людей конкретный процесс применения данных по-прежнему остается загадкой. Даже для некоторых практиков данных это трудно понять. Поэтому, хотя многие компании выкрикивают лозунги, основанные на данных, на самом деле они не отражают ценности данных.

Данные, бизнес и алгоритмы представляют собой замкнутую систему «три в одном».Для выявления тенденций и законов, содержащихся в данных, мышление, связанное с данными, должно быть прочно встроено в бизнес.

Я надеюсь поговорить с вами в этой статье о том, как данные шаг за шагом применяются в бизнесе, и помочь вам понять рабочий процесс экспертов по данным.

определить проблему

Не все проблемы можно решить с помощью данных.Многие проблемы кажутся проблемами с данными, но реальная ситуация такова, что данные могут играть очень маленькую роль, и есть много проблем, которые нельзя решить с помощью данных, но после абстракции Данные могут добавить ценность этих вопросов.

Многие платформы, которые занимаются рекомендацией контента, надеются найти «хороший» контент, однако, судя о качестве только по данным о самом контенте, помимо действий пользователя, часто не могут удовлетворить требованиям, потому что понятие «хороший» слишком широкое и нет четкого стандарта.

Мы можем абстрагироваться от проблемы и изменить «найти хороший контент» на «найти контент с высокой степенью завершенности». Таким образом, у проблемы есть четкая, измеримая цель, которая соответствует тому, как машины подходят к проблеме.

Способ мышления у машин и людей разный. Люди мыслят по сети и могут решать проблемы по-разному, в то время как машины линейны. Каждое решение должно иметь четкую и измеримую цель.

Нам нужно перевести проблемы, с которыми сталкиваются люди, в форму, которую смогут понять машины, чтобы машины могли учиться на данных для решения проблем.

В то же время, казалось бы, одинаковые с точки зрения машины цели приведут к совершенно разным результатам. Поэтому при определении цели задачи необходимо быть очень строгим, чтобы получить желаемый эффект.

Например: платформа хочет улучшить показатель удержания пользователей, но цель — показатель кликабельности пользователей, Вроде бы эффект тот же, но конечный результат будет сильно отличаться.

Подготовить данные

В реальной работе более 80% времени уходит на подготовку данных, и это важнейшее техническое звено в процессе.

Однако какие данные требуются машине и являются данными высокого качества?

Вы можете подумать, что чем больше объем данных, тем лучше, но на самом деле чем полнее данные, тем лучше. Типа, сколько минеральной воды не выпьешь, вкус колы узнать невозможно.

Когда мы сталкиваемся с конкретной проблемой, нам необходимо оценить, достаточно ли полны данные, описывающие проблему, включая данные о различных аспектах проблемы. В то же время нам также необходимо настроить пропорцию различных выборок в данных, чтобы гарантировать, что машина может достаточно обучиться.

В статистике результаты статистического вывода разумны только тогда, когда выборка однородна.

Поэтому во многих случаях данные, размеченные вручную, необходимы для повышения способности машины к обучению. В дополнение к требованиям со стороны пользователя, лайки, коллекции и другие функции в продукте также включают требования к аннотации данных.

разработка функций

Люди могут легко обрабатывать неструктурированные данные, но машины могут обрабатывать только структурированные данные. Если данные, описывающие проблему, нельзя охарактеризовать (оцифровать), то машина не может обучиться никаким правилам.

С точки зрения разработки функций, суждения экспертов по данным очень проверены, и их суждения основаны на большом практическом опыте и понимании бизнеса.

Таким образом, хороший эксперт по данным должен быть хорошо знаком с бизнесом, может создать техническую систему от необработанных данных до данных о функциях и может полностью охватить исходный бизнес-опыт, даже за пределами ограничений исходного опыта.

Необходимо не только очистить, сопоставить и упорядочить данные, но и зафиксировать глубокие данные, лежащие в основе исходных данных.

3 способа уточнения глубоких данных:

Время за счет изменения данных в различных временных измерениях для уточнения новых данных.
Сценарии, извлекайте новые данные, комбинируя изменения данных в разных сценариях.
Кроссовер для уточнения новых данных путем перекрестного сравнения данных друг с другом.

Много раз, когда большое количество слабых данных объединяется друг с другом, а затем преобразуется в новые данные, эти синтетические данные могут стать ключевыми данными для решения проблемы.

Настройка алгоритма

Реальные данные часто чрезвычайно сложны, и для их обработки требуются простые и надежные алгоритмы. Хороший алгоритм — это алгоритм, который максимизирует ценность данных без потери данных, основанный на различных структурах данных.

Данные — это материал для решения проблемы, а алгоритм — инструмент для решения проблемы. Существует три основных категории направлений алгоритма:

Рулеизм: не делайте никаких предположений о данных, а непосредственно извлекайте ряд правил принятия решений из реальных данных и предполагайте, что эти правила принятия решений применимы ко всем новым данным.
Частотность: предположим, что данные, которые необходимо изучить, подчиняются некоторому идеальному статистическому распределению, и используйте математические методы, чтобы вывести закономерности из идеальных данных.
Байесианство: они не делают никаких выводов из данных, а находят корреляции между различными случаями.

Если вы хотите решить, какой алгоритм лучше, вам необходимо установить алгоритм автоматического выбора и алгоритм автоматической настройки параметров в соответствии с экспериментальным эффектом, чтобы машина могла автоматически выбирать наиболее подходящий алгоритм и инструмент для текущих данных.

Это похоже на понимание принципа работы двигателя, и это не поможет вам иметь более продвинутые навыки вождения, и вам нужна практика, чтобы получить наилучшие результаты.

Если алгоритм машинного обучения — это мощный движок, то этому алгоритмическому движку нужен простой в использовании штурвал, а визуализация — штурвал технологии машинного обучения.

Алгоритмы можно настраивать, только визуализируя различные числовые значения.

Суммировать

Опытные эксперты по данным могут извлекать большое количество прогностических функций данных с бизнес-опытом, интуицией и логическими рассуждениями, а также быстро находить алгоритмы для решения проблем.

Следовательно, это также объясняет, почему инженеры, занимающиеся управлением данными, тем ценнее, чем старше они.

Наконец, буклет Nuggets для всех в Amway.«Углубленное понимание сегментации китайских слов в НЛП: от принципа к практике», что позволит вам с нуля освоить технологию сегментации китайских слов и войти в дверь НЛП.

Если приведенный выше контент будет полезен для вас, я надеюсь, что вы можете лайкнуть, прокомментировать, переслать, спасибо!