Управление активами данных в сфере разведки

искусственный интеллект алгоритм внешний интерфейс
Управление активами данных в сфере разведки

Текст/Облако Alibaba - Цинь Ци

Учащиеся, знакомые с большими данными, должны быть знакомы с терминами «активы данных» и «управление активами данных», но не смущает ли их добавление «интеллектуального поля»? Связаны ли активы данных с интеллектом? Не волнуйтесь, давайте сначала взглянем на эти два ключевых слова. ​

Активы данных и управление активами данных

  • Активы данных — это наборы данных в киберпространстве с правом собственности на данные (права на исследование, права на использование, право собственности), ценными, измеримыми и удобочитаемыми. -- Википедия
  • А как насчет управления активами данных? Управление активами данных (DAM) — это набор бизнес-функций, которые планируют, контролируют и доставляют данные и информационные активы, включая разработку, выполнение и мониторинг планов, политик, программ, проектов, процессов, методов и процедур, связанных с данными, тем самым контролируя , защищать, доставлять и повышать ценность ваших активов данных. -- Белая книга по практике управления активами данных

Определения этих двух слов немного официальные. Чтобы понять это просто, основная часть активов данных — это данные, подчеркивая, что данные — это «собственные» данные, и они ценны и измеримы, а управление активами данных заключается в использовании некоторых методов. максимизировать ценность данных, насколько это возможно. Резюме состоит из двух ключевых слов: данные, значение. ​

Исследования в области разведки

Сказав так много, какое это имеет отношение к области разведки? Или не парься, а давайте подумаем, какие проблемы существуют в нынешней разведке? На мой взгляд, есть две проблемы, которые необходимо срочно решить:

  1. Трудно начать работу, и отсутствует базовая инфраструктура данных и материалы, поэтому каждый разработчик должен следовать общим шагам машинного обучения для решения проблем, проходя этапы определения проблемы, подготовки данных, проектирования функций, моделирования. выбор, настройка обучения и оценка модели. Так могут ли пользователи быстро приступить к работе и сосредоточиться на решении основных проблем, не рассматривая данные или оценку, и заботясь только о выборе модели и настройке?
  2. Повторное использование данных оставляет желать лучшего. Почти для каждой задачи первым шагом является сбор и обработка данных.Как правило, объем данных, необходимых для машинного обучения, очень велик, и минимум составляет 10 000. Их также необходимо предварительно обработать, и для этого доступны различные методы обработки. разные проблемы.. Что делать после окончания обучения указанной проблемной модели? Если нет таких же проблем в последующем, эта часть данных является одноразовой, и это равносильно ее отбрасыванию, когда она израсходована. Думая о данных, на сбор и обработку которых мы потратили много времени, и об этом финале, не стыдно ли думать об этом?

Итак, чтобы решить две вышеупомянутые ключевые проблемы, поскольку мы просто отвечаем за бизнес, связанный с активами данных, мы хотим попытаться увидеть, может ли метод управления активами данных решить эти две проблемы. Одним словом, мы хотим систематически и стандартизированно управлять данными, связанными с интеллектом, используя управление активами данных для достижения цели стандартизации данных, надежности данных и обмена данными. Конкретные идеи заключаются в следующем: ​

управление данными

Одним словом, управлять данными, используемыми в сфере разведки, такими как общие задачи, общие наборы данных, общие модели, показатели оценки и т. д. Таким образом, разработчики могут увидеть интересующие задачи, а также некоторую практику существующих моделей, и эти задачи уже содержат соответствующие наборы данных. Все, что нужно учитывать разработчикам, — это выбор модели и ее настройка, что экономит много времени и значительно упрощает начало работы. Подобно формату Kaggle, мы сосредоточимся на некоторых общих задачах, таких как задачи, связанные с анализом кода, и создадим наш общий набор данных и алгоритмы модели на основе этих задач. ​

Я должен упомянуть здесь часть управления данными.Мы создадим хранилище данных, связанное с анализом кода, и исходные данные будут преобразованы в наборы данных, необходимые для каждой задачи через ETL.В то же время, основываясь на этом, мы можем наблюдать за кровной связью данных.Распределение и анализ воздействия, чтобы, если возникнет проблема на последующих этапах, мы могли быстро проанализировать и определить местонахождение.


обмен данными

Изучите взаимосвязь между данными, чтобы облегчить пользователям обмен данными. Совместное использование здесь состоит из двух частей: одна — это совместный доступ к набору данных, а другая — совместный доступ к модели. ​

Для обмена данными мы хотим создавать общие наборы данных на основе определенных задач. Например, в области анализа кода один и тот же аннотированный исходный код может быть применен к различным задачам кода после стандартизированной обработки. Наиболее распространенная генерация кода (завершение кода) может использоваться для прогнозирования последующей генерации кода; в сочетании с аннотациями кода ее можно использовать для обучения поиску кода (поиск кода), преобразованию текста в код (преобразование текста в код) и Преобразование кода в текст. Для пользователей данных может быть приговорselect * from code where comment is not nullОбучающие данные задачи преобразования текста в код после обработки могут быть получены, и нет необходимости в дополнительном сборе данных, обработке данных и т. д. Для нас, поставщика данных, единственным соображением является то, достаточно ли богаты выборки данных, укладываются ли они в установленный срок и безопасны ли данные. ​

Для совместного использования моделей из-за необъяснимости общих глубоких моделей мы можем, по крайней мере, установить унифицированный и стандартный интерфейс ввода и вывода модели, чтобы можно было легко подключать и отключать разные модели для сравнения и измерения эффектов разных моделей. ​

Качество данных


Качество данных в основном учитывает следующие показатели данных:

  • Целостность: отсутствуют ли данные;
  • Нормативные: хранятся ли данные в соответствии с требуемыми правилами;
  • Непротиворечивость: есть ли конфликт между значением информации и значением данных;
  • Точность: неверны ли данные;
  • Уникальность: повторяются ли данные;
  • Своевременность: загружаются ли данные в соответствии с требованием времени.

Каждая задача глубокого обучения неотделима от этапа сбора и обработки данных и требует много времени, поскольку качество этого этапа сильно связано с конечным эффектом обучения. Поэтому в нашей инфраструктуре данных мы уделяем особое внимание качеству данных. В процессе сбора и обмена данными мы установим строгие правила проверки данных, чтобы обеспечить точность наших данных. Например, в приведенном выше исходном коде после первоначальной обработки, такой как удаление пустых строк, добавление идентификационных символов начала и конца и т. д., в процессе хранения в основном проверяется, является ли значение каждого поля пустым, является ли значение перечисления соответствует требованиям и т.д. Переходя к конкретным задачам кода, таким как преобразование текста в код, в первую очередь текст и код не могут быть пустыми, а быть более строгими, например проверка длины текста и так далее. Конечно, разные задачи имеют разные спецификации и требования к данным.Что нам нужно сделать, так это абстрагировать требования к данным общих задач, максимально охватить обработку данных всех общих задач и поддержать обработку некоторых конкретных требований, чтобы обеспечить достоверность данных. ​

напиши в конце


Управление активами данных — это комбинация ряда решений и стандартов, и вышеперечисленные — это только те, которые мы выбрали и которые наиболее подходят для области разведки. Другие включают стандарты данных, моделирование предметной области и многое другое. Среди них стандарт данных в основном решает проблемы согласованности и точности данных; модель данных представляет собой абстракцию характеристик реальных данных, которая используется для описания концепции и определения набора данных. Эти концепции и методы могут служить отправной точкой для нашего интеллектуального процесса, и необходимы последующие исследования и практика. ​

В этом документе делается попытка применить стандартизированные методы обработки, такие как активы данных, в области разведки. Есть надежда, что эти две области будут иметь трансграничное столкновение. Основная цель - повысить эффективность и ценность данных, и мы надеемся оказать некоторую помощь. для разработчиков машинного обучения. ​

использованная литература



Front-end-F-x-Team Amoy открывает WeiboЛа! (Отображается после входа в Weibo)
Помимо статей, вас ждет разблокировка еще командного контента ?