Бизнес-опыт Umeng+ в области анализа данных: как перейти от DI к AI?

искусственный интеллект алгоритм продукт Операция
Интервью и редактор | Натали
Гость | Ли Даньфэн
Править | Дебра
Руководство по передовой ИИ:По состоянию на этот год концепция больших данных популярна уже более 7 лет, искусственный интеллект и блокчейн стали новыми выходами, а индустрия больших данных постепенно успокоилась, сосредоточившись больше на «посадочных приложениях». Некоторые люди говорят, что пока большие данные были популярны, такие проблемы, как слабая корреляция данных, низкое качество данных и сложный процесс обработки данных, существовали долгое время. Наступление эры искусственного интеллекта не только усугубляет эти проблемы, но и создает некоторые новые проблемы.С одной стороны, нынешний искусственный интеллект по-прежнему в значительной степени зависит от данных, как сделать так, чтобы большие данные лучше служили приложениям искусственного интеллекта; С другой стороны, как правильно его использовать? Искусственный интеллект — это инструмент, позволяющий сделать обработку больших данных более эффективной? Мы поговорили с CDO Umeng + Li Danfeng, чтобы поговорить об опыте Umeng + в области интеллектуального анализа данных в эпоху искусственного интеллекта.

Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)

Умэн + CDO Ли Даньфэн

В январе 2016 года Umeng, CNZZ и Diyuanxin, три компании с большими ресурсами данных в своих отраслях, объединились, чтобы сформировать новую компанию Umeng+, и объем данных только что родившейся Umeng+ внезапно удвоился. По состоянию на первый квартал 2018 года Umeng+ обслуживает 1,5 миллиона приложений, 7,1 миллиона веб-сайтов, каждый день можно получить доступ к 1,4 миллиардам устройств, каждый день собираются сотни миллиардов событий, а совокупный объем данных записывается в PB. Всего на складе Youmeng + 55 ПБ данных.Если вы возьмете лист бумаги формата А4 и напишете числа с обеих сторон, лист формата А4 можно будет сложить, чтобы вместить 150 000 грузовиков. Сколько таблиц данных находится в хранилище данных Umeng+? Около 19 000 листов. Для интеллектуального анализа данных, анализа и расчетов ежедневный объем вычислений требует 20 000 вычислительных единиц, что эквивалентно 24-часовому непрерывному расчету 10 миллиардов человек на 200 землях.

Внезапное увеличение объема данных, с одной стороны, позволяет Umeng+ получить естественное преимущество в объеме данных среди многих поставщиков услуг передачи данных; вызов.

Как добиться эффективных вычислений, обрабатывая в среднем сотни миллиардов данных в день?
В: Какие проблемы создает слияние трех компаний для управления и интеграции данных, продукта данных и корректировки групп данных? Как вы справились с этими проблемами?

На уровне продукта:Задача, с которой мы начали сталкиваться, заключалась в том, как интегрировать различные продукты трех компаний, и эту проблему можно себе представить. Наш подход заключается в интеграции продуктов на основе потребительских сегментов. Все мы знаем, что Umeng предоставляет мобильные услуги передачи данных и рабочие инструменты для мобильных интернет-компаний и предпринимателей, а также является комплексной платформой данных мобильных разработчиков в Китае; CNZZ — это платформа статистического анализа для китайских веб-сайтов, а ее клиентская база охватывает китайские веб-сайты и небольшие и средние предприятия.Yuanxin Network Data предоставляет универсальные решения для данных для ведущих интернет-компаний.Три компании выпускают множество информационных продуктов на основе своих собственных данных.Мы интегрируем продукты в соответствии с группами клиентов. Продукты, ориентированные на разработчиков, такие как статистика приложений и веб-сайтов, Push and Share, интегрированы в Dplus, чтобы предоставить разработчикам универсальную статистику и рабочие инструменты. Продукты, обслуживающие новую розничную торговлю, интегрированы в Oplus, а продукты для рекламодателей интегрированы в ADplus, образуя нашу серию информационных продуктов Plus.

С точки зрения интеграции данных:Первоначальные три компании полностью дополняют друг друга в области услуг данных.Что касается данных, у нас редко есть общая группа обслуживания клиентов, что избавляет нас от многих проблем с интеграцией данных.Интеграция в другой стандарт. Что касается интеграции данных, Umeng+ использует возможность подключения данных домена для подключения мобильных, ПК, автономных и других кросс-терминальных и мультисценарных данных, чтобы данные можно было интегрировать во весь домен, так что Umeng+ действительно стал глобальная компания данных.

Обработка данных:Объединенный Umeng+ имеет около миллиардов данных идентификаторов, возвращаемых на платформу обучения данных каждый день, что приводит к огромному количеству вычислений и занятию вычислительных ресурсов. эффективная среда производства данных для обеспечения стабильности вычислений. Поэтому выбор полного обновления данных или обновления по требованию напрямую определяет потребление ресурсов хранения и вычислений, то есть стоимость. Мы выдвинули концепцию «состояния кода», чтобы группа данных должна была использовать наиболее эффективный метод для реализации расчета. Особенно в сценариях с огромным объемом данных, таких как 10 миллиардов идентификаторов, если каждое вычисление может быть увеличено на 1%, можно сэкономить огромные ресурсы. Кроме того, в проекте интеллектуального анализа данных мы постепенно сформировали набор эффективных базовых архитектур, таких как очистка данных, формирование единой широкой таблицы после открытия и создание универсального профиля пользователя (устройства). Подавляющее большинство интеллектуального анализа данных и моделирования основано на этом профиле. После достижения изоляции от уровня продукта обновления продукта не повлияют на последующее моделирование. Мы также предоставляем полную функцию возврата, которая позволяет Профилю пользователя вернуться к любому дню в истории (конечно, существует самая ранняя точка возврата), что очень важно для моделирования в строгом смысле.Некоторые сценарии являются обязательными. иметь функцию, например, в нашем сценарии управления финансовыми рисками, то, может ли он иметь обратную силу, определяет достоверность эффекта модели.

Вопрос: Как определить и внедрить эффективные вычисления при большом объеме данных? Как проверить качество данных?

заЭффективное вычисление больших данных включает в себя эффективность хранения, эффективность поиска и эффективность кода.Только что упомянул, что у нас 19 000 таблиц, 55PB, очевидно, любая оптимизация хранилища принесет огромный экономический эффект. Например, сделанный нами идентификатор тега может сэкономить 70% места на многих таблицах.эффективный поискЭто означает пометить каждую производственную таблицу и построить карту данных, чтобы мы могли быстро найти нужную таблицу.Эффективность кода, в основном путем установления спецификаций разработки. Чтобы избежать повторной разработки данных и потери такого большого количества данных, мы эффективно стандартизируем код и наименование. Вы также можете использовать методологию, например, как распределять данные по слоям, унифицировать язык и определять приоритеты условий индексации, все это необходимо записывать в спецификации разработки. Каждый фрагмент кода будет иметь показатель работоспособности, и если ваше здоровье будет низким, приоритет вашей программы будет снижен.

В: Какие этапы эволюции архитектуры данных Umeng+ вы прошли для достижения упомянутых выше высокоэффективных вычислений? Можете ли вы представить несколько ключевых узлов эволюции?

Первым важным узлом является интеграция сбора, передачи и обработки данных трех компаний, объединяющая наши платформы, инструменты, протоколы и базовые данные. Это основа для нас, чтобы открывать данные и проводить дальнейший анализ ценности данных. Второй узел — это техническая модернизация вычислений в режиме реального времени и в автономном режиме, которая обеспечивает стабильность сервисов в случае резкого увеличения объема данных. Третий узел — интегрировать содержимое данных, мы открываем разные концы, соединяем содержимое и строим глобальный портрет. Четвертый узел — это наша бизнес-оценка качества данных для выявления и решения возможных проблем в процессе сбора и обработки данных.Хорошее качество данных является предпосылкой нашего хорошего обслуживания.

бизнес-данные, бизнес-данные

В: Пожалуйста, представьте Umeng + текущую бизнес-систему? Какие виды продуктов включены? В чем преимущество Umeng+ перед конкурентами?

Система «Друзья + бизнес», которую мы используем«Три вертикали и две горизонтали»Чтобы уточнить, первой частью трех вертикалей является служба данных об операциях в Интернете: Dplus, которая помогает разработчикам осуществлять цифровые операции и точный анализ посредством универсального сбора данных приложений/веб-сайтов; вторая часть — это новая служба розничных данных: Oplus, Устройства восприятия, основанные на интеллекте, позволяют офлайновым розничным продавцам отслеживать офлайн-данные и в то же время расширять возможности онлайн-данных в офлайне, ориентированные на потребительский спрос, повышать эффективность, снижать затраты и улучшать взаимодействие с пользователем. Третья часть — это ADplus, комплексная система маркетинговых услуг, которая помогает рекламодателям и агентствам вести макроскопический мониторинг — от охвата, узнаваемости и поиска до влияния бренда и внимания во всей сети.

Две горизонтальные линии: решения для работы с большими данными для финансовой индустрии и индустрии мобильных телефонов. Финансовая индустрия официально стартовала в прошлом году и за год добилась хороших результатов.Мы начали с продуктов для контроля рисков, основанных на данных мобильного Интернета, и постепенно расширились до маркетинга по привлечению клиентов, вторичного маркетинга и управления кредитами.В этом году компания также планирует разработка продуктов для посткредитного управления. В то же время в этом году мы также запустили решение для больших данных для индустрии мобильных телефонов.Используя глобальные данные 700 миллионов реальных активных пользователей в качестве энергии и с помощью 150 000 вычислительных ядер и механизмов обработки данных, мы помогаем производителям мобильных телефонов достичь восприятие рынка, планирование бизнеса и продуктов, цифровая трансформация во всех аспектах бизнес-потока, включая запуск продукта и операции после запуска.

Для Umeng+ самым большим преимуществом являются глобальные данные, а также познание и способность анализа данных. Что касается глобальных данных, Umeng+ соединяет и интегрирует в режиме реального времени данные 700 миллионов реальных активных потребителей через терминалы и сценарии, такие как приложения, ПК и оффлайн, с помощью технологии глобального доступа к данным, чтобы помочь предприятиям получить всестороннее представление о «люди», чтобы предприятия и потребители могли лучше понимать и связываться с помощью данных: с точки зрения анализа данных Umeng+ предлагает концепцию глобальных данных * алгоритм * сценарий, то есть использование глобальных данных в качестве новой энергии для предприятий с использованием технологий данных. и алгоритмические модели как двигатель предприятия, взяв сцену контакта между предприятием и пользователем в качестве пути, помогая предприятию от цифровизации к интеллектуальному и, наконец, используя интеллектуальный анализ данных, чтобы помочь предприятию достичь роста, добавленной стоимости и модернизации. .

В: Вы позиционируете себя как "сторонний глобальный поставщик услуг передачи данных". С какими техническими проблемами столкнулся Umeng+ при перемещении по миру? Как это было решено?

Я только что упомянул, что одна из наших сильных сторон — «универсальность». Одной из самых больших проблем «глобального» является доступ к данным. Мы разработали собственный алгоритм доступа к данным и в то же время извлекли уроки из опыта Али.Основываясь на возможностях глобальных данных, благодаря большому количеству высококачественных данных модель может достичь точности около 80% и полноты 80%.

В: Однажды вы сказали, что «традиционные предприятия в будущем станут важной группой обслуживания клиентов». Можете ли вы рассказать о ключевых факторах, связанных с применением данных традиционными предприятиями?

Существует много мнений о правильном применении данных на традиционных предприятиях, таких как устранение разрозненности данных, поддержка со стороны руководства, пропаганда культуры, основанной на данных, и т. д. Я не буду повторять их здесь. Я хотел бы подчеркнуть один момент, который заключается в создании «замкнутого цикла данных». Иными словами, данные можно собирать в каждом звене бизнес-сценария, чтобы можно было по-настоящему реализовать управление данными. Чтобы привести простой пример, причина, почему электронная коммерция так хорошо работает, заключается в том, что каждая ссылка на ведение электронной коммерции поддерживается данными, которые можно оптимизировать. Подумайте еще раз об офлайн-сцене: на какой полке больше пассажиров и какой товар чаще всего берут в руки — для продавцов эти данные не имеют значения. Без данных нельзя говорить об оптимизации. Поэтому для традиционных предприятий мы должны глубоко задуматься о том, как сформировать «замкнутый цикл данных». «Бизнес-данные, бизнес-данные», то есть правда. Это непросто, но как только вы это сделаете, у вас будет преимущество перед конкурентами.

В: С точки зрения Umeng+, что является наиболее важным фактором успеха информационного продукта?

Ключевой фактор успеха информационного продукта на самом деле очень прост: может ли он решить проблему. Здесь есть несколько уровней: l Первый,Произошел ли рост эффективности, или снижение затрат, или увеличение прибыли?, в настоящее время существует множество информационных продуктов, предназначенных для использования данных, а не для фактического решения проблем. l Во-вторых, могут ли данные, которые вы используете, решить основную проблему,Многие сторонние компании данных оборачивают свои собственные данные в omnipotent, что очень непрактично,Сторонние данные часто играют вспомогательную роль, при использовании таких информационных продуктов необходимо спрашивать об источнике данных, характеристиках данных, уметь находить корреляцию между самими данными и проблемой для решения. решить. Точно так же, как вы не можете построить самолет из хлопка, существуют сценарии, в которых каждый тип данных применим и неприменим. Так называемое «знание есть знание, незнание есть незнание, оно есть знание», что соответствует применению данных «используй для использования, не используй для использования, это для использования».

Специалисты по данным должны выйти из своих собственных пирамид
В: Можете ли вы представить текущий размер группы данных и состав команды Umeng+? Какие главные роли? Каковы различия в рабочих местах или обязанностях, разделяемых различными ролями?

Команда Umeng + data насчитывает более 40 человек, включая специалистов по данным, аналитиков данных и специалистов по исследованиям и разработкам. Основная задача специалиста по данным — моделирование и анализ ценности данных. Аналитики данных выполняют большую работу по бизнес-аналитике и в то же время контролируют качество данных и проводят углубленный анализ данных в соответствии с потребностями бизнеса. Data R&D отвечает за интеграцию, обработку и извлечение данных, создание базовых таблиц, поддержку бизнес-логики и требований к аналитическому моделированию.

В: По вашему мнению, какие профессиональные навыки необходимы специалистам по данным и инженерам данных? Какая самая важная способность среди них?

Во-первых, это базовые навыки извлечения, обработки и анализа данных. С точки зрения инструментов, таких как SQL, Python и т. д., с точки зрения основных математических и статистических аспектов, включая среднее значение, дисперсию, медиану, корреляцию и т. д., с точки зрения моделирования, таких как LR, GBDT, CNN и т. д. , Как оценивать различные модели, включая точность и полноту, ложные срабатывания, ROC, KS и другие показатели.

Имея эти основные предпосылки, я думаюСамая важная способность ученого данных в промышленности — выявлять проблемы, устанавливать прямые связи между данными и алгоритмами и решать проблемы.Все согласны с тем, что данные являются огромным активом и могут решить для нас многие проблемы, но если мы присмотримся поближе, сценарии, в которых могут быть реализованы настоящие большие данные и алгоритмы, все еще очень ограничены, особенно для традиционных предприятий. Примером может служить недавняя блокировка IBM Watson в больницах США.Хотя это помогло больнице решить некоторые проблемы, цена была высокой. Ранее я упоминал, что ключом к успеху информационного продукта является «повышение эффективности, или снижение затрат, или увеличение прибыли».Дата-сайентисты должны иметь эту идею, чтобы выйти из собственных пирамид, понять и понять бизнес,Это то, что я считаю очень важной компетенцией для специалистов по данным в промышленности.

Данные и интеллект
В: После того, как искусственный интеллект стал популярным, некоторые люди высмеивали людей, которые раньше занимались большими данными, а теперь говорят, что они занимаются искусственным интеллектом. Мы все знаем, что рост недавней волны ИИ неотделим от больших данных.Какое влияние, по вашему мнению, оказало развитие ИИ на область больших данных в последние годы? Какие изменения произошли с популяризацией ИИ в сфере больших данных (включая техническое направление, прикладное направление и т. д.)?

Это влияние огромно.До подъема волны ИИ большинство приложений для работы с большими данными, которые понимало (и фактически делало) большинство людей, были BI (бизнес-аналитика).БИ, проще говоря, это взгляд в прошлое,Статистические данные о том, что было сделано в прошлом, и о влиянии, которое они оказали, после того, как статистический отчет будет опубликован, мы будем принимать решения о будущем на основе истории. Обратите внимание, что ключевым моментом здесь является «мы», когда люди принимают решения.А ИИ смотрит в будущее,Машины заменяют людей для принятия решений, обслуживание клиентов роботами, распознавание лиц, автономное вождение и т. д. — все это в этом сценарии.

Три основных элемента ИИ сегодня — это «данные», «алгоритмы» и «вычислительная мощность», и среди этих трех элементов многие люди (включая меня) считают, что «данные» являются наиболее важным фактором. Это связано с тем, что структура современных моделей ИИ содержит большое количество параметров, и для изучения этих параметров алгоритму требуется большой объем данных.Популярность ИИ теперь заставляет всех осознать важность данных.Это самое заметное изменение. Что касается технологий, способов сбора (таких как Интернет вещей), хранения и обработки (таких как Hadoop, Spark, Flink), моделирования (таких как глубокое обучение) и даже технологий, связанных с большими данными, таких как чипы ИИ, достигнут большой прогресс. Что касается приложений, многие отрасли также начали внедряться (здравоохранение, образование) или все более активно вовлекаться в (финансовые) большие данные и искусственный интеллект.

В: Как Umeng+ применяет технологии искусственного интеллекта внутри компании и в продуктах, которые она предоставляет клиентам? Можете ли вы привести несколько примеров?

Данные Umeng+ касаются данных о работе Интернета и мобильного Интернета, поэтому наша основная работа заключается в построении модели поведения устройства.Если есть бизнес-сценарий, требующий информации о поведении устройства, наша модель может быть применена. Очень хорошим примером является античит-приложение Umeng+. С помощью настроек поведения устройства мы можем измерить качество устройства и помочь клиентам получить реальный трафик с помощью таких технологий, как алгоритмы атрибуции и интеллектуальный античит.

В: Вы работали в области анализа данных и майнинга в США более 10 лет и работали в таких компаниях, как Yahoo и Microsoft. Как вы думаете, в чем разница между Китаем и США с точки зрения технологий и приложений больших данных?

С точки зрения технологии, я лично считаю, что Соединенные Штаты все еще имеют некоторые преимущества. У них есть много компаний, которые делают очень долгосрочную низкоуровневую работу. Ресурсы научно-исследовательских институтов в школах и компаниях относительно богаты, и есть много люди, которые могут спокойно заниматься исследованиями.

На уровне приложений у Китая очень большое преимущество: у нас очень большая группа пользователей, и большое количество пользователей приносит большое количество сценариев приложений.

В: Как вы думаете, где в настоящее время произошел самый большой прорыв в области больших данных? Каково основное направление развития больших данных на следующем этапе?

Я думаю, что самый большой прорыв в области больших данных — это интерпретируемость моделей. Современный искусственный интеллект — это так называемый «слабый» искусственный интеллект, который использует большой объем данных для обучения модели черного ящика с множеством параметров. Эта модель устанавливает «корреляцию» ввода и вывода, а не «причинность». Например, вы держите зонт, а ваша обувь мокрая, эти два события «коррелированы», а значит, часто происходят вместе. Но зонт не является причиной мокрых ботинок, дождь является причиной мокрых ботинок, поэтому дождь и мокрые башмаки являются «причинно-следственными» отношениями. Почему причинно-следственная связь так важна? Потому что именно так мы понимаем мир и таким образом изменяем его дальше. Когда мы знаем, как растут растения, у нас есть десять тысяч акров плодородных полей; когда мы знаем взаимное преобразование электричества и магнетизма, мы можем иметь свет в десяти тысячах домов; только когда мы знаем, как летают птицы, мы можем иметь самолеты, парящие в воздухе. небо. Точно так же истинный интеллект - это модель, которая может помочь нам найти причинно-следственные связи. Во многих сценариях применения интерпретируемость также очень важна. Например, в финансовых сценариях нам нужно знать, почему мы можем дать этому человеку ссуду; в медицинских сценариях, мы должны знать, почему ставится такой диагноз и так далее.

Конечно, интерпретируемость модели может занять некоторое время. В настоящее время я думаю, что основным направлением развития больших данных является поиск реальных сценариев посадки в большем количестве областей. Сейчас в Интернете хорошо работают финансовые приложения, и есть хороший старт в медицинском обслуживании и образовании. Мы надеемся, что решения для работы с большими данными можно будет найти в большем количестве областей, а стандартом будет «повышение эффективности, или снижение затрат, или увеличение прибыли».

Представление гостей интервью

Умэн + CDO Ли Даньфэн

Возглавлял команду Umeng + по обработке данных для создания модели данных контроля рисков на основе данных о поведении устройств и успешно создал решение для контроля финансовых рисков в Интернете. В то же время он стремится исследовать новые алгоритмы или модели данных и внедрять инновации в области данных в различных областях.

Он работает в области анализа и добычи данных в США более 10 лет.Он работал в компаниях, которые находятся в авангарде приложений для работы с данными, включая Yahoo, Microsoft и FICO, и накопил богатый практический опыт в интеллектуальный анализ данных и машинное обучение.