Alibaba запускает платформу DeepInsight: визуальное понимание модели прогнозирования CTR глубокой нейронной сети

искусственный интеллект глубокое обучение алгоритм Нейронные сети
Этот документ был принят SIGIR 2018
Авторы | Го Линь, Е Хуэй, Су Вэньбо, Лю Хехуань, Сунь Кай, Сян Ханг, Хоу Цзюнь
Редактор | Наталья
Руководство по передовой ИИ:Поскольку человеческое познание и восприятие мира в основном исходят из зрения, хорошая визуализация может эффективно помочь людям понять глубокие нейронные сети и провести эффективную оценку, оптимизацию и настройку. Предпосылка визуализации состоит в том, чтобы выявить соответствующие данные модели, чтобы провести визуальный анализ и оценку и, наконец, сделать переход нейронной сети из «черного ящика» в «белый ящик». В ответ на эти вызовы команда Alibaba создала DeepInsight, платформу визуального анализа для крупномасштабных промышленных приложений глубокого обучения. Во введении к 39-й статье AI Frontline будет интерпретирована эта платформа визуализации для вас, и вы поймете, как Alibaba может визуально понять основанную на ней модель прогнозирования CTR глубокой нейронной сети.

Для более качественного контента, пожалуйста, обратите внимание на паблик WeChat «AI Frontline» (ID: ai-front)
задний план

Глубокое обучение добилось значительного прогресса как в области исследований, так и в области приложений. Но пока алгоритмы глубокого обучения недостаточно прозрачны и в основном используются как «черные ящики». В последние годы люди начали работать над более глубоким пониманием сложного механизма внутри глубокого обучения, чтобы обеспечить безопасность и надежность алгоритма или достичь цели дальнейшей оптимизации.

Хотя отрасль добилась определенного прогресса в области интерпретируемости алгоритмов в области обработки изображений и обработки естественного языка, в области электронной коммерции и рекламы она по-прежнему пуста. С другой стороны, технологии глубокого обучения начали широко применяться в рекламном бизнесе. Реклама является важным источником денежных потоков для многих интернет-компаний и является основным бизнесом. Модель глубокой нейронной сети является основным модулем основного бизнеса, и становится очень важным эффективно понять и оценить этот алгоритм «черного ящика».

Поскольку человеческое познание и восприятие мира в основном исходят из зрения, хорошая визуализация может эффективно помочь людям понять глубокие нейронные сети и провести эффективную оценку, оптимизацию и настройку. Предпосылка визуализации состоит в том, чтобы выявить соответствующие данные модели, чтобы провести визуальный анализ и оценку и, наконец, сделать переход нейронной сети из «черного ящика» в «белый ящик». В ответ на эти вызовы мы создали платформу визуального анализа для крупномасштабных приложений глубокого обучения в промышленных масштабах — DeepInsight.

Мы возьмем простую, но репрезентативную модель глубокой нейронной сети в качестве примера для оценки рейтинга кликов (CTR) рекламных объявлений в сценариях электронной коммерции и представим применение анализа визуализации модели по нескольким типичным и важным вопросам: 1. Обобщение. оценка эффекта, 2. Особенности дизайна, 3. Дизайн структуры модели.

Большинство исследований в области обработки изображений или естественного языка сосредоточено на визуальном понимании моделей на уровне детализации образцов. В отличие от этих исследовательских сценариев, оценка CTR в отрасли сталкивается с массивными данными и функциями, предвзятыми помеченными данными, разреженными, сложными и разнообразными шаблонами сигналов, а окончательная оценка эффекта в первую очередь связана с макроэкономическими показателями бизнеса. Начиная с бизнес-характеристик, мы начинаем со статистических сигналов, чтобы изучить и понять макропроизводительность модели на всем целевом наборе данных. Подробности связанной с этим экспериментальной работы можно найти в нашей английской версии статьи (см. ссылку в конце статьи).

Введение в платформу

Платформа DeepInsight ориентирована на разработку и применение алгоритмов глубокого обучения промышленного уровня, обеспечивает полное управление жизненным циклом задачи обучения модели и стремится обеспечить эффективный и всесторонний способ раскрытия данных, ремоделирование и другие направления в качестве основных функций.

Платформа основана на кластерном развертывании распределенных микросервисов и состоит из трех подсистем, включая фронтальную WEB-платформу + серверные микросервисы + компоненты глубокого обучения.Каждый экземпляр микросервиса изолирован и не влияет друг на друга, он подключен к Tensorflow и MXNet, Крупномасштабная параллельная обучающая среда, которая поддерживает сложные сценарии, такие как многозадачное обучение, трансферное обучение, обучение с подкреплением, GAN и слияние моделей, Он направлен на улучшение интерпретируемости нейронных сетей и решение отладки моделей и проблем за счет раскрытия данных. и визуализация, ряд задач, таких как анализ позиционирования, выполнение учебных задач в режиме управления жизненным циклом, тем самым предоставляя единый сервис визуальной оценки. В то время как платформа расширяет возможности бизнеса, бизнес также будет передавать обратно обработанные данные на платформу, тем самым создавая экосистему визуализации ИИ с DeepInsight в качестве основного ядра данных.

Алгоритм эксперимента

Без потери репрезентативности модель принимает простую структуру, подобную GwEN [1]. Для каждой входной выборки идентификатор разреженного объекта сопоставляется с низкоразмерным плотным вектором встраивания, а затем встраивание идентификатора объекта каждой группы подвергается операции суммирования в единицах групп признаков для получения вектора встраивания группы признаков. . Векторы встраивания каждой группы объектов объединяются вместе и передаются в качестве входных данных для последующего полносвязного слоя. Модель имеет в общей сложности 4 полностью связанных скрытых слоя и использует Relu в качестве функции активации. Выходной слой выводит расчетный рейтинг кликов (PCTR) с помощью сигмовидной операции.

Для моделей, обученных на разных этапах, мы собираем данные о состоянии различных наборов данных внутри модели с помощью динамического воздействия, которое является основой для визуального анализа.

Эффекты генерализации и колебания состояния нейронов

Хорошо известно, что глубокие нейронные сети обладают мощными возможностями подбора. По мере обучения модель продолжает соответствовать обучающим данным, становясь все более и более чувствительной к небольшим различиям во входной информации. Учитывая модель, состояние каждого нейрона определяется вводом выборки. Изменения на входе разных выборок в наборе данных приводят к флуктуациям состояния нейронов, и степень этой флуктуации отражает чувствительность модели к входной информации. С другой стороны, модель, которая слишком чувствительна к обучающим данным, снизит ее способность к обобщению. Наши визуализации ясно показывают связь между тем, насколько хорошо модель обобщает, и тем, насколько сильно колеблются состояния нейронов.

На рисунке ниже показано среднее колебание значения состояния каждого нейрона в четвертом скрытом слое модели и сравнивается статистическая производительность модели на разных этапах обучения на обучающем и тестовом наборах. До переобучения степень флуктуации нейронов остается относительно стабильной, а тренировочные/тестовые наборы более согласованными. При переобучении степень волатильности значительно возрастает, а обучающая выборка значительно сильнее тестовой. Это просто отражает то, что модель в состоянии переобучения слишком чувствительна к обучающим данным.

Мы объединили среднюю степень колебаний всех нейронов в скрытом слое и обнаружили, что этот показатель может быть коррелирован с изменением производительности (AUC) модели в разных наборах данных. Степень флуктуации нейронов дает нам возможность понять и обнаружить переоснащение. Кроме того, этот расчет метрики не требует меток, поэтому он может помочь нам оценить производительность модели на пакете наборов данных, которые не получают отзывов о кликах.

Влияние функции

Одним из преимуществ глубоких нейронных сетей по сравнению с традиционными моделями логистической регрессии является возможность автоматического извлечения нелинейных пересекающихся функций из входных данных. Однако на практике было установлено, что качество самого входного признака также сильно влияет на эффект модели.

Какие функции важны для модели? Для традиционных моделей логистической регрессии мы можем распознать важность признаков по их весам. Однако это не применимо к глубоким нейронным сетям.

Мы используем информацию о градиенте, чтобы понять влияние каждой группы признаков на модель. Дифференцируйте вход полностью связанной сети с модельным выходом (PCTR). Сила градиента представляет собой чувствительность оценок выходных данных модели к небольшим изменениям входных данных, тем самым отражая влияние входных данных на модель. Чем сильнее градиент, тем больше влияние на модель оказывает ввод. Агрегирование средней силы градиента, соответствующего соответствующему встраиванию в каждой группе признаков, может описать влияние группы признаков на модель.

На приведенном ниже графике сравнивается среднее влияние каждой группы признаков в двух разных состояниях модели (без переобучения и переобучения). Разница между двумя состояниями хорошо видна: при переоснащении модель сверхчувствительна к небольшому количеству наборов признаков, особенно наборам признаков под номерами 1 и 11. На самом деле эти две функции являются отдельными функциями с огромными значениями идентификаторов, такими как идентификатор пользователя, которые требуют огромного пространства параметров и действительно несут очень мало обобщенной информации.

Полезность скрытого слоя и его информационное представление

Визуализируя выходной вектор скрытого слоя, мы показываем исчерпывающее представление модели входной информации, что помогает нам понять внутренний механизм модели и влияние структуры модели на эффект. На рисунке ниже выходные векторы различных скрытых слоев проецируются на 2D-плоскость через tsne. В отличие от результатов визуализации [2] для классификации изображений, мы не наблюдаем разделения выборочных точек щелчка и отсутствия щелчка. Это определяется высоким уровнем шума сэмпловой информации в нашей сцене. Однако видно, что точки выборки кликов пространственно сгруппированы. Третий уровень имеет более очевидную агрегацию, чем второй уровень, что указывает на то, что информация, представленная третьим уровнем, более различима. Но четвертый уровень не показывает дальнейшего улучшения.

В свою очередь, направляя дизайн структуры модели, наши эксперименты демонстрируют, что обучение модели без четвертого слоя может привести к результатам, аналогичным результатам модели с четырьмя скрытыми слоями.

Ремоделирование полезности скрытого слоя и его представления

В предыдущем разделе были описаны преимущества знания каждого скрытого слоя для эффективности классификации модели. Наша платформа DeepInsight позволяет нам легко реконструировать открытые данные, чтобы еще больше углубить наше понимание структуры модели.

Мы используем метод слоя обнаружения, предложенный Аленом и Бенжио [3], берем вектор представления скрытого слоя для выборки в качестве входного признака, а также используем обратную связь выборки в качестве метки для обучения модели зонда логистической регрессии. . Сравнение эффектов моделей зондов, обученных различными скрытыми слоями, может помочь нам понять влияние структуры скрытого слоя на эффект модели. Как показано на рисунке ниже, отчетливо видно, что от первого до третьего уровня дискриминационная способность выходной информации скрытого слоя для поведения кликов улучшается слой за слоем. Четвертый слой не принес очевидных преимуществ, что согласуется с выводом, сделанным в предыдущем разделе.

резюме

Мы исследуем визуализацию и интерпретируемость глубокого обучения в контексте рекламы электронной коммерции, Анализируя внутренние данные модели глубокой нейронной сети, мы открываем этот «черный ящик», чтобы глубоко понять внутреннее состояние и механизм модели. Эти исследования были успешно реализованы в сервисах платформы, тем самым помогая в разработке алгоритмов и бизнес-приложений.

Оригинальный адрес газеты:

https://arxiv.org/abs/1806.08541

использованная литература:

[1] Guorui Zhou, Chengru Song, Xiaoqiang Zhu, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, Kun Gai. 2017. Deep Interest Network for Click-Through Rate Prediction. arXiv preprint arXiv:1706.06978 (2017).

[2] Пауло Раубер, Самуэль Фадель, Александр Фалькао и Александру Телеа, 2017. Визуализация скрытой активности искусственных нейронных сетей, Транзакции IEEE по визуализации и компьютерной графике 23, 1 (2017), 101–110.

[3] Гийом Ален и Йошуа Бенжио, 2016. Понимание промежуточных слоев с помощью линейного