В XXI веке бесконечным потоком появляются новые интернет-технологии. С развитием больших данных, облачных технологий и всей вычислительной мощности исследования и применение технологий искусственного интеллекта также быстро росли и достигли выдающихся результатов в речи, изображениях и естественном языке. Что еще более важно, правительство также активно развивает цифровую экономику, включая добавление «данных» в качестве фактора производства впервые на четвертом пленуме ЦК Коммунистической партии Китая 19-го созыва. повышение эффективности производства является важным, и это стало важным изменением в новых факторах производства с большинством характеристик времени. Как профессиональный поставщик услуг по анализу данных, Getui была основана в 2010 году. В процессе разработки технологии больших данных она добилась некоторых достижений и приобрела собственный опыт и опыт.
В марте 2019 года компания Getui (Daily Interactive, 300766.SZ) была зарегистрирована на рынке растущих предприятий, уделяя особое внимание анализу данных. Компания активно работает в этой области, а также исследует и обобщает «трехэтапную» методологию анализа данных: осаждение данных, интеллектуальный анализ данных и применение данных на практике. Что касается нижнего уровня, Getui предоставляет четыре службы разработчика: push-сообщение, портрет пользователя, статистику приложений и аутентификацию одним ключом, и в то же время накапливает массивные данные; средний уровень — это слой механизма push-уведомлений. майнинг и моделирование, самостоятельное создание «платформы для больших данных». Верхний уровень — это уровень приложения данных, который предоставляет различные услуги больших данных, такие как бренд-маркетинг, услуги по управлению рисками, планирование пространства населения и общественные услуги для расширения многих вертикальных областей.
В этой статье основное внимание будет уделено трем аспектам, основанным на индивидуальной практике push-уведомлений: характеристикам эпохи интеллектуального анализа данных, актуальным проблемам, с которыми сталкиваются предприятия, и идее построения системы интеллектуального анализа данных.
Характеристики эпохи интеллектуального анализа данныхНаступила эра интеллектуального анализа данных Как объяснялось в статье «Эра больших данных», мы обнаружили и подтвердили, что большие данные оказывают огромное влияние на наше мышление, бизнес и управление.
изменение мышления
С точки зрения изменения мышления мы считаем, что характеристики эпохи интеллектуального анализа данных можно свести к трем пунктам: более, более сложные и более актуальные. Больше означает, что вместо того, чтобы полагаться на небольшую часть данных, люди используют все данные и совершают скачок от третьей к четвертой нормальной форме.
Итак, в чем разница между третьей нормальной формой и четвертой нормальной формой? Возьмите «причины образования смога» в качестве примера для объяснения. Процесс исследования дымки в рамках третьей парадигмы выглядит следующим образом: сначала задайте вопросы. Например, хотите узнать, что такое смог? Как предотвратить? Во-вторых, придумать теорию. Согласно существующему пониманию механизма, формирование дымовой погоды связано не только с источником и химическим составом атмосферы, но и с метеорологическими факторами, включая топографию, направление ветра, температуру, влажность и т. д. А количество параметров превышает возможности нашего рутинного мониторинга.
С этой целью мы можем только удалить некоторые, казалось бы, неважные параметры, оставить некоторые простые параметры и предложить теорию. Затем соберите данные, смоделируйте расчеты и пересмотрите теорию в соответствии с результатами расчетов. Наконец, получаются результаты с высокой надежностью и прогнозируется туманная погода.
Соответственно, каков исследовательский метод Четвертой Парадигмы? Первое звено и последнее звено такие же, как и в третьей нормальной форме, но порядок двух звеньев в середине обратный, то есть в четвертой нормальной форме мы должны сначала собрать данные, а затем сформировать теорию.
После того, как поставлен первый вопрос, первое, что мы делаем, это не создаем теоретическую модель, а собираем все потенциально полезные данные, а затем используем методы машинного обучения, или методы искусственного интеллекта, чтобы выяснить на этой основе. идентифицируются те, которые оказывают большее влияние на образование дымки, а затем выдвигаются соответствующие теории. Наконец, делайте прогнозы и проверяйте результаты. Благодаря появлению больших данных третья парадигма может совершить скачок к четвертой парадигме, что также привело к изменению всего образа мышления и методологии.
Второй характеристикой изменения мышления является большая сложность, то есть переход от точности к вероятности. Точность, как продукт эпохи отсутствия информации и эпохи моделирования, требует данных для обеспечения качества и уменьшения ошибок. В эпоху больших данных огромные объемы данных не позволяют нам проверять точность данных один за другим. В большинстве случаев мы выясняем вероятность данных путем распределения всех данных, затем находим полезные данные и удаляем бесполезные данные.
Третья характеристика изменения мышления более актуальна. Данные представляют собой не причинно-следственную связь, а корреляционную связь, а ядром является прогноз, основанный на методе корреляционного анализа. Подводя итог, характеристики изменения мышления в эпоху больших данных можно резюмировать следующим образом:
- Измените способ работы, чтобы использовать все собранные данные вместо образцов;
- Не акцентирует внимание на точности;
- принять существование путаницы и ошибок;
- Сосредоточьтесь на анализе корреляций, а не на причинах прогнозов.
изменение бизнеса
С точки зрения трансформации бизнеса, эра интеллектуального анализа данных имеет три основные характеристики: все поддается количественной оценке, бесконечные возможности для инноваций и выбор ценности данных.
«Все поддается количественной оценке» означает, что с развитием эры интеллектуального анализа данных мы обнаружим, что все вокруг нас генерирует данные, а это означает, что реальный мир, в котором мы живем, имеет соответствующие отношения с информационным миром. В будущем все в нашем физическом мире будет иметь прямое соответствие с миром цифровых двойников.
Настоящая ценность данных подобна айсбергу: первичная ценность — это только видимая часть сверху, а за ней — «безграничные возможности для инноваций». После того, как данные используются для прямых деловых целей, кажется, что они бесполезны, но как только они будут объединены с другими отраслевыми данными, мы обнаружим, что эффект синергии очень силен и может создать огромную ценность использования. Другими словами, бизнес-данные, которые сегодня кажутся бесполезными, могут сыграть важную роль в будущем. Поэтому мы рекомендуем предприятиям или компаниям с большим объемом данных впредь каким-либо образом сохранять свои бизнес-данные, например, использовать решение озера данных.
Ценность данных — это сумма всех возможных вариантов их использования. Сталкиваться с этими бесконечными потенциальными вариантами использования — все равно, что делать выбор. Сумма этих выборов — это ценность данных, то есть ценность выбора данных.
Подводя итог, с точки зрения трансформации бизнеса характеристики эпохи интеллектуального анализа данных можно резюмировать следующим образом:
- Ценность выбора данных означает безграничные возможности; 2. Эпоха цифрового интеллекта требует, чтобы мы относились к данным иначе, чем к традиционным активам; 3. Инновации в данных означают большую неопределенность.
Практические проблемы, с которыми мы сталкиваемсяСуть проблем, с которыми мы сталкиваемся в эпоху цифрового интеллекта, заключается в конфликте между требованиями к организации данных и управлению (с упором на стабильность) и требованиями бизнес-инноваций (с упором на гибкость).
Несколько проблем, которые необходимо решить с помощью ядра данных Независимость от данных: пользователи не знают, какие данные есть на платформе больших данных, и не знают о взаимосвязи между этими данными и бизнесом. Хотя пользователи осознают важность больших данных, неясно, есть ли в платформе ключевые данные, которые могут решить бизнес-задачи, и как найти соответствующие данные.
Неконтролируемые данные. Неконтролируемые данные — это проблема, которая существует с момента появления традиционных платформ данных, особенно в эпоху больших данных. Отсутствие единых стандартов данных затрудняет интеграцию данных, а отсутствие контроля качества делает многие данные слишком низкого качества для использования.
Нежелательные данные: даже если пользователи знают, какие данные нужны их бизнесу, они не могут легко получить данные самостоятельно. На самом деле сбор данных требует длительного процесса разработки, а длительное реагирование на запросы идет вразрез с целью быстрого решения проблем в эпоху больших данных.
Данные не могут быть связаны: в эпоху больших данных, хотя предприятия имеют массивные данные, корреляция между корпоративными данными и знаниями все еще относительно слаба, а системы данных и знаний не связаны. Кроме того, сотрудникам предприятия сложно быстро преобразовывать данные и знания, и они не могут проводить углубленное исследование и добычу данных, что затрудняет выявление глубокой ценности данных.
Мы собрали проблемы с данными внутри компании и обнаружили, что есть несколько трудностей: медленная реакция бизнеса, частые проблемы с качеством данных, сложное использование данных и медленный доступ к данным, низкая эффективность разработки, высокие затраты на пробы и ошибки, а также дублирование построения емкости данных. и т.п.
Идеи построения системы технологии интеллектуального анализа данныхОбщая цель
1. Оперативно поддерживайте инновационные потребности бизнес-подразделений и создавайте сервисные возможности, которые быстро реагируют на потребности бизнеса;
2. Соедините данные в разных полях в режиме реального времени, чтобы отразить максимальное значение данных;
3. Управляйте данными как активом.
В большинстве случаев мы, в свою очередь, содействуем построению системы анализа данных компании с учетом потребностей бизнеса, и ее непосредственная ценность отражается в экономии средств, повышении эффективности и повышении качества.
Идеи и принципы построения1. В основном для внутренних клиентов, особенно для сотрудников отдела исследований и разработок и разработчиков моделей, с целью повышения эффективности развития бизнеса; 2. хорошо поработать над управлением метаданными и кровными родственными связями, а также повысить степень управления данными для обеспечения качества и безопасности данных; 3. Приоритет отдается построению возможностей с высокой степенью повторного использования, таких как возможность уточнения государственных услуг, таких как: скорость извлечения и анализа данных, платформа управления данными и платформа разработки данных; 4. В принципе, возможности данных должны создаваться командами, знакомыми с бизнесом в соответствующей области и имеющими определенный технический багаж; 5. Наращивание потенциала должно быть сосредоточено на нескольких основных критериях: стабильность, простота эксплуатации и обслуживания, работоспособность и возможность аудита.
С точки зрения наращивания потенциала компания может создать трехуровневую структуру: нижний уровень — технологический центр, средний уровень — центр обработки данных, верхний уровень — бизнес-система. Важно отметить, что наличие платформы не означает, что проблема решена. Мы считаем, что наиболее идеальным способом является сочетание платформы и человеческих возможностей. Осаждение платформ имеет проверенные и многократно используемые возможности; в то время как люди больше реагируют на потребности в инновациях, используют знания для создания инструментов и улучшения платформ. Это тоже восходящая спираль. Платформе нужны специальные люди для работы и продвижения; бизнесу нужны люди, которые могут использовать платформу и могут быстро генерировать решения для обеспечения хорошего общения и сотрудничества с персоналом платформы.
Основываясь на этой идее, Gitui построила такую систему на организационных гарантиях компании: верхний уровень в настоящее время представляет собой виртуальный отдел промежуточного офиса данных, который со временем станет отделом юридических лиц. Группа архитектуры и техническая группа участвуют в строительстве центра обработки данных. Кроме того, мы отправляем некоторых технических специалистов, связанных с данными, в бизнес-отдел, чтобы данные не только лучше применялись в бизнесе, но и позволяли им давать отзывы о влиянии использования и проблемах бизнес-отдела, чтобы чтобы сформировать замкнутый цикл, мы называем это DO (владелец данных).
Развитие Интернета привело всех в эру больших данных, а эра интеллектуального анализа данных является важным этапом развития в эпоху больших данных, с возможностями и проблемами. Getui будет активно использовать возможности, реагировать на вызовы, постоянно исследовать сочетание интеллектуального анализа данных и отраслевых приложений, предоставлять разработчикам услуги по повышению энергопотребления с помощью инновационных технологий и предоставлять индивидуальные решения для работы с большими данными для различных вертикальных областей, таких как мобильный Интернет и бренд-маркетинг. план. В будущем Getui продолжит использовать возможности данных, чтобы объединить усилия с другими отраслевыми партнерами для создания интеллектуального анализа данных и беспроигрышной экосистемы!