Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)
Умэн + CDO Ли Даньфэн
В январе 2016 года Umeng, CNZZ и Diyuanxin, три компании с большими ресурсами данных в своих отраслях, объединились, чтобы сформировать новую компанию Umeng+, и объем данных только что родившейся Umeng+ внезапно удвоился. По состоянию на первый квартал 2018 года Umeng+ обслуживает 1,5 миллиона приложений, 7,1 миллиона веб-сайтов, каждый день можно получить доступ к 1,4 миллиардам устройств, каждый день собираются сотни миллиардов событий, а совокупный объем данных записывается в PB. Всего на складе Youmeng + 55 ПБ данных.Если вы возьмете лист бумаги формата А4 и напишете числа с обеих сторон, лист формата А4 можно будет сложить, чтобы вместить 150 000 грузовиков. Сколько таблиц данных находится в хранилище данных Umeng+? Около 19 000 листов. Для интеллектуального анализа данных, анализа и расчетов ежедневный объем вычислений требует 20 000 вычислительных единиц, что эквивалентно 24-часовому непрерывному расчету 10 миллиардов человек на 200 землях.
Внезапное увеличение объема данных, с одной стороны, позволяет Umeng+ получить естественное преимущество в объеме данных среди многих поставщиков услуг передачи данных; вызов.
На уровне продукта:Задача, с которой мы начали сталкиваться, заключалась в том, как интегрировать различные продукты трех компаний, и эту проблему можно себе представить. Наш подход заключается в интеграции продуктов на основе потребительских сегментов. Все мы знаем, что Umeng предоставляет мобильные услуги передачи данных и рабочие инструменты для мобильных интернет-компаний и предпринимателей, а также является комплексной платформой данных мобильных разработчиков в Китае; CNZZ — это платформа статистического анализа для китайских веб-сайтов, а ее клиентская база охватывает китайские веб-сайты и небольшие и средние предприятия.Yuanxin Network Data предоставляет универсальные решения для данных для ведущих интернет-компаний.Три компании выпускают множество информационных продуктов на основе своих собственных данных.Мы интегрируем продукты в соответствии с группами клиентов. Продукты, ориентированные на разработчиков, такие как статистика приложений и веб-сайтов, Push and Share, интегрированы в Dplus, чтобы предоставить разработчикам универсальную статистику и рабочие инструменты. Продукты, обслуживающие новую розничную торговлю, интегрированы в Oplus, а продукты для рекламодателей интегрированы в ADplus, образуя нашу серию информационных продуктов Plus.
С точки зрения интеграции данных:Первоначальные три компании полностью дополняют друг друга в области услуг данных.Что касается данных, у нас редко есть общая группа обслуживания клиентов, что избавляет нас от многих проблем с интеграцией данных.Интеграция в другой стандарт. Что касается интеграции данных, Umeng+ использует возможность подключения данных домена для подключения мобильных, ПК, автономных и других кросс-терминальных и мультисценарных данных, чтобы данные можно было интегрировать во весь домен, так что Umeng+ действительно стал глобальная компания данных.
Обработка данных:Объединенный Umeng+ имеет около миллиардов данных идентификаторов, возвращаемых на платформу обучения данных каждый день, что приводит к огромному количеству вычислений и занятию вычислительных ресурсов. эффективная среда производства данных для обеспечения стабильности вычислений. Поэтому выбор полного обновления данных или обновления по требованию напрямую определяет потребление ресурсов хранения и вычислений, то есть стоимость. Мы выдвинули концепцию «состояния кода», чтобы группа данных должна была использовать наиболее эффективный метод для реализации расчета. Особенно в сценариях с огромным объемом данных, таких как 10 миллиардов идентификаторов, если каждое вычисление может быть увеличено на 1%, можно сэкономить огромные ресурсы. Кроме того, в проекте интеллектуального анализа данных мы постепенно сформировали набор эффективных базовых архитектур, таких как очистка данных, формирование единой широкой таблицы после открытия и создание универсального профиля пользователя (устройства). Подавляющее большинство интеллектуального анализа данных и моделирования основано на этом профиле. После достижения изоляции от уровня продукта обновления продукта не повлияют на последующее моделирование. Мы также предоставляем полную функцию возврата, которая позволяет Профилю пользователя вернуться к любому дню в истории (конечно, существует самая ранняя точка возврата), что очень важно для моделирования в строгом смысле.Некоторые сценарии являются обязательными. иметь функцию, например, в нашем сценарии управления финансовыми рисками, то, может ли он иметь обратную силу, определяет достоверность эффекта модели.
заЭффективное вычисление больших данных включает в себя эффективность хранения, эффективность поиска и эффективность кода.Только что упомянул, что у нас 19 000 таблиц, 55PB, очевидно, любая оптимизация хранилища принесет огромный экономический эффект. Например, сделанный нами идентификатор тега может сэкономить 70% места на многих таблицах.эффективный поискЭто означает пометить каждую производственную таблицу и построить карту данных, чтобы мы могли быстро найти нужную таблицу.Эффективность кода, в основном путем установления спецификаций разработки. Чтобы избежать повторной разработки данных и потери такого большого количества данных, мы эффективно стандартизируем код и наименование. Вы также можете использовать методологию, например, как распределять данные по слоям, унифицировать язык и определять приоритеты условий индексации, все это необходимо записывать в спецификации разработки. Каждый фрагмент кода будет иметь показатель работоспособности, и если ваше здоровье будет низким, приоритет вашей программы будет снижен.
Первым важным узлом является интеграция сбора, передачи и обработки данных трех компаний, объединяющая наши платформы, инструменты, протоколы и базовые данные. Это основа для нас, чтобы открывать данные и проводить дальнейший анализ ценности данных. Второй узел — это техническая модернизация вычислений в режиме реального времени и в автономном режиме, которая обеспечивает стабильность сервисов в случае резкого увеличения объема данных. Третий узел — интегрировать содержимое данных, мы открываем разные концы, соединяем содержимое и строим глобальный портрет. Четвертый узел — это наша бизнес-оценка качества данных для выявления и решения возможных проблем в процессе сбора и обработки данных.Хорошее качество данных является предпосылкой нашего хорошего обслуживания.
В: Пожалуйста, представьте Umeng + текущую бизнес-систему? Какие виды продуктов включены? В чем преимущество Umeng+ перед конкурентами?
Система «Друзья + бизнес», которую мы используем«Три вертикали и две горизонтали»Чтобы уточнить, первой частью трех вертикалей является служба данных об операциях в Интернете: Dplus, которая помогает разработчикам осуществлять цифровые операции и точный анализ посредством универсального сбора данных приложений/веб-сайтов; вторая часть — это новая служба розничных данных: Oplus, Устройства восприятия, основанные на интеллекте, позволяют офлайновым розничным продавцам отслеживать офлайн-данные и в то же время расширять возможности онлайн-данных в офлайне, ориентированные на потребительский спрос, повышать эффективность, снижать затраты и улучшать взаимодействие с пользователем. Третья часть — это ADplus, комплексная система маркетинговых услуг, которая помогает рекламодателям и агентствам вести макроскопический мониторинг — от охвата, узнаваемости и поиска до влияния бренда и внимания во всей сети.
Две горизонтальные линии: решения для работы с большими данными для финансовой индустрии и индустрии мобильных телефонов. Финансовая индустрия официально стартовала в прошлом году и за год добилась хороших результатов.Мы начали с продуктов для контроля рисков, основанных на данных мобильного Интернета, и постепенно расширились до маркетинга по привлечению клиентов, вторичного маркетинга и управления кредитами.В этом году компания также планирует разработка продуктов для посткредитного управления. В то же время в этом году мы также запустили решение для больших данных для индустрии мобильных телефонов.Используя глобальные данные 700 миллионов реальных активных пользователей в качестве энергии и с помощью 150 000 вычислительных ядер и механизмов обработки данных, мы помогаем производителям мобильных телефонов достичь восприятие рынка, планирование бизнеса и продуктов, цифровая трансформация во всех аспектах бизнес-потока, включая запуск продукта и операции после запуска.
Для Umeng+ самым большим преимуществом являются глобальные данные, а также познание и способность анализа данных. Что касается глобальных данных, Umeng+ соединяет и интегрирует в режиме реального времени данные 700 миллионов реальных активных потребителей через терминалы и сценарии, такие как приложения, ПК и оффлайн, с помощью технологии глобального доступа к данным, чтобы помочь предприятиям получить всестороннее представление о «люди», чтобы предприятия и потребители могли лучше понимать и связываться с помощью данных: с точки зрения анализа данных Umeng+ предлагает концепцию глобальных данных * алгоритм * сценарий, то есть использование глобальных данных в качестве новой энергии для предприятий с использованием технологий данных. и алгоритмические модели как двигатель предприятия, взяв сцену контакта между предприятием и пользователем в качестве пути, помогая предприятию от цифровизации к интеллектуальному и, наконец, используя интеллектуальный анализ данных, чтобы помочь предприятию достичь роста, добавленной стоимости и модернизации. .
Я только что упомянул, что одна из наших сильных сторон — «универсальность». Одной из самых больших проблем «глобального» является доступ к данным. Мы разработали собственный алгоритм доступа к данным и в то же время извлекли уроки из опыта Али.Основываясь на возможностях глобальных данных, благодаря большому количеству высококачественных данных модель может достичь точности около 80% и полноты 80%.
Существует много мнений о правильном применении данных на традиционных предприятиях, таких как устранение разрозненности данных, поддержка со стороны руководства, пропаганда культуры, основанной на данных, и т. д. Я не буду повторять их здесь. Я хотел бы подчеркнуть один момент, который заключается в создании «замкнутого цикла данных». Иными словами, данные можно собирать в каждом звене бизнес-сценария, чтобы можно было по-настоящему реализовать управление данными. Чтобы привести простой пример, причина, почему электронная коммерция так хорошо работает, заключается в том, что каждая ссылка на ведение электронной коммерции поддерживается данными, которые можно оптимизировать. Подумайте еще раз об офлайн-сцене: на какой полке больше пассажиров и какой товар чаще всего берут в руки — для продавцов эти данные не имеют значения. Без данных нельзя говорить об оптимизации. Поэтому для традиционных предприятий мы должны глубоко задуматься о том, как сформировать «замкнутый цикл данных». «Бизнес-данные, бизнес-данные», то есть правда. Это непросто, но как только вы это сделаете, у вас будет преимущество перед конкурентами.
Ключевой фактор успеха информационного продукта на самом деле очень прост: может ли он решить проблему. Здесь есть несколько уровней: l Первый,Произошел ли рост эффективности, или снижение затрат, или увеличение прибыли?, в настоящее время существует множество информационных продуктов, предназначенных для использования данных, а не для фактического решения проблем. l Во-вторых, могут ли данные, которые вы используете, решить основную проблему,Многие сторонние компании данных оборачивают свои собственные данные в omnipotent, что очень непрактично,Сторонние данные часто играют вспомогательную роль, при использовании таких информационных продуктов необходимо спрашивать об источнике данных, характеристиках данных, уметь находить корреляцию между самими данными и проблемой для решения. решить. Точно так же, как вы не можете построить самолет из хлопка, существуют сценарии, в которых каждый тип данных применим и неприменим. Так называемое «знание есть знание, незнание есть незнание, оно есть знание», что соответствует применению данных «используй для использования, не используй для использования, это для использования».
Команда Umeng + data насчитывает более 40 человек, включая специалистов по данным, аналитиков данных и специалистов по исследованиям и разработкам. Основная задача специалиста по данным — моделирование и анализ ценности данных. Аналитики данных выполняют большую работу по бизнес-аналитике и в то же время контролируют качество данных и проводят углубленный анализ данных в соответствии с потребностями бизнеса. Data R&D отвечает за интеграцию, обработку и извлечение данных, создание базовых таблиц, поддержку бизнес-логики и требований к аналитическому моделированию.
Во-первых, это базовые навыки извлечения, обработки и анализа данных. С точки зрения инструментов, таких как SQL, Python и т. д., с точки зрения основных математических и статистических аспектов, включая среднее значение, дисперсию, медиану, корреляцию и т. д., с точки зрения моделирования, таких как LR, GBDT, CNN и т. д. , Как оценивать различные модели, включая точность и полноту, ложные срабатывания, ROC, KS и другие показатели.
Имея эти основные предпосылки, я думаюСамая важная способность ученого данных в промышленности — выявлять проблемы, устанавливать прямые связи между данными и алгоритмами и решать проблемы.Все согласны с тем, что данные являются огромным активом и могут решить для нас многие проблемы, но если мы присмотримся поближе, сценарии, в которых могут быть реализованы настоящие большие данные и алгоритмы, все еще очень ограничены, особенно для традиционных предприятий. Примером может служить недавняя блокировка IBM Watson в больницах США.Хотя это помогло больнице решить некоторые проблемы, цена была высокой. Ранее я упоминал, что ключом к успеху информационного продукта является «повышение эффективности, или снижение затрат, или увеличение прибыли».Дата-сайентисты должны иметь эту идею, чтобы выйти из собственных пирамид, понять и понять бизнес,Это то, что я считаю очень важной компетенцией для специалистов по данным в промышленности.
Это влияние огромно.До подъема волны ИИ большинство приложений для работы с большими данными, которые понимало (и фактически делало) большинство людей, были BI (бизнес-аналитика).БИ, проще говоря, это взгляд в прошлое,Статистические данные о том, что было сделано в прошлом, и о влиянии, которое они оказали, после того, как статистический отчет будет опубликован, мы будем принимать решения о будущем на основе истории. Обратите внимание, что ключевым моментом здесь является «мы», когда люди принимают решения.А ИИ смотрит в будущее,Машины заменяют людей для принятия решений, обслуживание клиентов роботами, распознавание лиц, автономное вождение и т. д. — все это в этом сценарии.
Три основных элемента ИИ сегодня — это «данные», «алгоритмы» и «вычислительная мощность», и среди этих трех элементов многие люди (включая меня) считают, что «данные» являются наиболее важным фактором. Это связано с тем, что структура современных моделей ИИ содержит большое количество параметров, и для изучения этих параметров алгоритму требуется большой объем данных.Популярность ИИ теперь заставляет всех осознать важность данных.Это самое заметное изменение. Что касается технологий, способов сбора (таких как Интернет вещей), хранения и обработки (таких как Hadoop, Spark, Flink), моделирования (таких как глубокое обучение) и даже технологий, связанных с большими данными, таких как чипы ИИ, достигнут большой прогресс. Что касается приложений, многие отрасли также начали внедряться (здравоохранение, образование) или все более активно вовлекаться в (финансовые) большие данные и искусственный интеллект.
Данные Umeng+ касаются данных о работе Интернета и мобильного Интернета, поэтому наша основная работа заключается в построении модели поведения устройства.Если есть бизнес-сценарий, требующий информации о поведении устройства, наша модель может быть применена. Очень хорошим примером является античит-приложение Umeng+. С помощью настроек поведения устройства мы можем измерить качество устройства и помочь клиентам получить реальный трафик с помощью таких технологий, как алгоритмы атрибуции и интеллектуальный античит.
С точки зрения технологии, я лично считаю, что Соединенные Штаты все еще имеют некоторые преимущества. У них есть много компаний, которые делают очень долгосрочную низкоуровневую работу. Ресурсы научно-исследовательских институтов в школах и компаниях относительно богаты, и есть много люди, которые могут спокойно заниматься исследованиями.
На уровне приложений у Китая очень большое преимущество: у нас очень большая группа пользователей, и большое количество пользователей приносит большое количество сценариев приложений.
Я думаю, что самый большой прорыв в области больших данных — это интерпретируемость моделей. Современный искусственный интеллект — это так называемый «слабый» искусственный интеллект, который использует большой объем данных для обучения модели черного ящика с множеством параметров. Эта модель устанавливает «корреляцию» ввода и вывода, а не «причинность». Например, вы держите зонт, а ваша обувь мокрая, эти два события «коррелированы», а значит, часто происходят вместе. Но зонт не является причиной мокрых ботинок, дождь является причиной мокрых ботинок, поэтому дождь и мокрые башмаки являются «причинно-следственными» отношениями. Почему причинно-следственная связь так важна? Потому что именно так мы понимаем мир и таким образом изменяем его дальше. Когда мы знаем, как растут растения, у нас есть десять тысяч акров плодородных полей; когда мы знаем взаимное преобразование электричества и магнетизма, мы можем иметь свет в десяти тысячах домов; только когда мы знаем, как летают птицы, мы можем иметь самолеты, парящие в воздухе. небо. Точно так же истинный интеллект - это модель, которая может помочь нам найти причинно-следственные связи. Во многих сценариях применения интерпретируемость также очень важна. Например, в финансовых сценариях нам нужно знать, почему мы можем дать этому человеку ссуду; в медицинских сценариях, мы должны знать, почему ставится такой диагноз и так далее.
Конечно, интерпретируемость модели может занять некоторое время. В настоящее время я думаю, что основным направлением развития больших данных является поиск реальных сценариев посадки в большем количестве областей. Сейчас в Интернете хорошо работают финансовые приложения, и есть хороший старт в медицинском обслуживании и образовании. Мы надеемся, что решения для работы с большими данными можно будет найти в большем количестве областей, а стандартом будет «повышение эффективности, или снижение затрат, или увеличение прибыли».
Умэн + CDO Ли Даньфэн
Возглавлял команду Umeng + по обработке данных для создания модели данных контроля рисков на основе данных о поведении устройств и успешно создал решение для контроля финансовых рисков в Интернете. В то же время он стремится исследовать новые алгоритмы или модели данных и внедрять инновации в области данных в различных областях.
Он работает в области анализа и добычи данных в США более 10 лет.Он работал в компаниях, которые находятся в авангарде приложений для работы с данными, включая Yahoo, Microsoft и FICO, и накопил богатый практический опыт в интеллектуальный анализ данных и машинное обучение.