Эволюция глубокого обучения в улучшении актуальности AutoNavi POI

глубокое обучение

1. Введение

AutoNavi Map имеет десятки миллионов точек интереса POI (Point of Interest), таких как школы, отели, заправочные станции, супермаркеты и т. д. При создании большого количества POI истечет срок действия большого количества POI, таких как закрытие бизнеса, снос, перемещение и изменение имени. Эта часть POI оказывает серьезное негативное влияние на актуальность карты и взаимодействие с пользователем, и ее необходимо выявлять и устранять своевременно и эффективно.

Из-за высокой стоимости и низкой своевременности полевого сбора особое значение имеют алгоритмы майнинга. Среди них модель временных рядов, основанная на больших данных тренда, может охватывать большую часть мощностей майнинга, что имеет большое значение для улучшения качества POI.

Идентификацию POI с истекшим сроком действия можно по существу абстрагировать как проблему бинарной классификации с асимметричным распределением данных. Проект основан на функциях тенденций из нескольких источников и вводит многомерные и разреженные атрибуты и функции состояния в итерациях для создания гибридной модели, отвечающей потребностям бизнеса.

В этой статье систематизированы бизнес-трудности, возникающие в процессе внедрения технологии глубокого обучения в AutoNavi Maps, а также осуществимые решения, проверенные на практике.

2. Разработка функций

Суть майнинга с истекшим сроком действия заключается в восприятии изменений, которые происходят с истечением срока действия POI, а наблюдательный анализ после события обычно сопровождается снижением активности, связанной с POI. Следовательно, ключом к модели временных рядов является построение связанной системы признаков. В то же время мы также строим некоторые эффективные непоследовательные признаки для вспомогательной коррекции на практике.

2.1 Временные характеристики

С точки зрения характеристик временных рядов устанавливается взаимосвязь между POI и различной информацией, и они интегрируются в месячные статистические значения как вход модели временных рядов; с точки зрения окон временных рядов с учетом влияния некоторых периодических законов , для обучения модели требуется более двух лет последовательности.

2.2 Дополнительные функции

Что касается вспомогательных функций, то первое — это эффективное использование проверенных вручную исторических данных. Метод заключается в построении вектора One-Hot длины временного ряда и пометке месяца последней ручной проверки как 1, а других месяцев как 0. Существование ручной проверки означает, что вероятность экспирации возле узла в это время низкая.Если ручное обновление происходит после снижения тренда, это означает, что вероятность тренда, представляющего экспирацию, невелика.

Во-вторых, исследование показало, что POI в разных отраслях промышленности имеют разную вероятность истечения срока действия, например, общественное питание и услуги жизнеобеспечения, которые имеют более высокую вероятность истечения срока действия, в то время как географические названия или автобусные остановки относительно низки. Поэтому номер типа отрасли строится как эквивалентный вектор длины временного ряда в качестве статического вспомогательного признака.

Третий вспомогательный признак построен путем обобщения проблемы отзыва пропусков в бизнесе. Обнаружено, что существует довольно много вновь появившихся POI, продолжительность которых с момента создания библиотеки меньше, чем длина последовательности. Это означает, что на ранней стадии этой части ряда имеется много ложных трендов с нулевыми значениями, которые будут мешать реальному нисходящему тренду в хвосте и, таким образом, ошибочным суждениям. Для этого предлагаются две идеи оптимизации:

  • Используя модель RNN переменной длины, в качестве входных данных перехватывается только часть последовательности после времени создания POI.

  • Длина последовательности остается неизменной, а также добавляется функция одномерной последовательности "ворота". Часть последовательности до времени создания POI равна 0, а затем - 1. как показано на рисунке.

По сравнению со второй схемой эффект лучше. Учитывая, что у нас есть только информация о времени создания хранилища POI, но мы не знаем конкретное время рождения хранилища, мы можем напрямую перехватить последовательность в соответствии со временем хранения, что приведет к потере характеристической информации во время рождения хранилища и POI. период времени создания и добавление «дверной» последовательности Затем можно ограничить интервал высокой достоверности, сохраняя при этом полную информацию. Схематическая диаграмма окончательно построенного гибридного объекта показана ниже.

3. Стадия РНН

Рекуррентная нейронная сеть (RNN, рекуррентная нейронная сеть) имеет очень заметную производительность в задачах моделирования последовательности благодаря своей сильной способности представления, а ее вариантная модель LSTM используется в бизнесе.

3.1RNN1.0

Основываясь на вышеупомянутых функциях временных рядов и вспомогательных функциях, мы используем многоуровневый LSTM для построения первой версии модели майнинга с истечением срока действия RNN, структура показана на рисунке. Основная логика заключается в том, чтобы ввести функции, выровненные по моментам времени, в глубокий LSTM, а после вывода в последний момент сети получить доступ к слою SoftMax для расчета вероятности истечения срока действия. Наконец, в соответствии с результатами сопоставляются различные доверительные сегменты, и соответственно выполняются такие задачи, как автоматическая обработка или ручные операции. Модель предварительно проверила осуществимость и преимущества RNN в области добычи просроченных трендов.

3.2 RNN2.0

AutoNavi Maps ранжирует POI по популярности на основе частоты операций, таких как навигация, поиск или щелчок. Если срок действия популярного POI головы истекает, но не найден вовремя, это нанесет больше вреда пользовательскому опыту. Основная цель обновления модели в версии 2.0 — дальнейшее улучшение возможности обнаружения POI с истекшим сроком действия в популярных сегментах головы.

Анализ показал, что распределение данных популярных POI сильно отличается от хвоста. Объем данных в головной POI велик, и месяцев со значением 0 мало; напротив, данных в хвостовой POI мало, и количество месяцев со значением может быть только однозначным. Для этой ситуации, когда эффект головы особенно очевиден, модель головы RNN с характеристиками высокотемпературных сегментов разрабатывается отдельно для реализации индивидуального майнинга.

С другой стороны, в случае отсутствия одномерных признаков также используются различные методы заполнения для выделения тепла. Основные объекты POI богаты информацией, а отсутствующие измерения заполнены нулями, чтобы они оставались «молчаливыми» для предотвращения помех; в то время как хвостовые объекты разрежены и сами имеют много нулевых значений, поэтому требуется интерполяционная обработка для сохранения недостающие функции и общая тенденция аналогична. Метод заключается в нормализации данных других измерений, а затем в использовании взвешенного метода для получения интерполяции.

Модель версии 2.0 улучшила способность к воспроизведению головы и хвоста, особенно способность головы к автоматизации.

4. Широкая и глубокая сцена

Модель RNN может полностью исследовать информацию о функциях временных рядов, но отсутствие богатой функции стало узким местом, ограничивающим дальнейшее улучшение возможностей автоматизации. Таким образом, интеграция других данных в бизнес и обновление модели с точки зрения слияния информации из нескольких источников стали в центре внимания нового этапа. Основные цели интеграции включают невременную статическую информацию и информацию о состоянии, а также недавно разработанную информацию о временных характеристиках.

Модернизация модели в основном основывается на идеях Wide&Deep и включает множество прикладных инноваций в сочетании с реальной ситуацией в бизнесе. Во-первых, нам нужно инкапсулировать существующую модель RNN в модуль Deep и объединить ее с частью Wide, что эквивалентно перестройке гибридной модели, которая включает интеграцию измерений структуры модели. Во-вторых, есть как информация о временных рядах Deep, так и информация о статусе в реальном времени в Wide, что включает интеграцию временного измерения данных. Наконец, широкая часть содержит большое количество не поддающихся количественной оценке или сопоставимых признаков типа, которые необходимо закодировать и представить, что включает в себя интеграцию измерений атрибутов данных.

4.1 Wide & LSTM

  • Кодирование функций

Мы создаем модуль Wide, кодируя невременные признаки. В основном он включает в себя три характеристики: атрибут, статус и тип отрасли подразделения.

Учитывая, что некоторые атрибуты POI отсутствуют, первый бит в кодировке указывает, существует ли объект или нет, за которым следует соответствующий тип атрибута после кодирования One-Hot; для объекта статуса также есть бит, указывающий, отсутствует ли объект или нет. , а следующее кодирование One-Hot представляет тип состояния в последний момент; поскольку разные типы отраслей имеют разную скорость истечения срока действия фона, мы используем кодирование One-Hot для подразделенных типов отраслей в качестве третьей функции. Наконец, каждый код объекта соединяется по очереди, чтобы получить многомерный разреженный вектор. Процесс кодирования признаков показан на рисунке.

  • Соединение функций После того, как функции завершены, ключом становится объединение различных функций и обучение модели. Точка соединения выбирается на предыдущем слое вывода SoftMax. Для структуры RNN Глубокой части в связке участвует скрытый слой последнего временного узла, для многомерного разреженного вектора Широкой части мы используем слой полносвязной сети для уменьшения размерности для получения скрытый слой широкой части. Наконец, скрытые слои двух частей соединяются и выводятся в SoftMax для расчета вероятности истечения срока действия.

Модель совместно обучается путем синхронного ввода характеристик широкой и глубокой частей, а размеры связанных скрытых слоев двух частей корректируются для балансировки веса двух частей. Структура модели Wide & LSTM сцены майнинга с истекшим сроком действия показана на рисунке.

После нескольких итераций оптимизации модель была стабильно запущена в производство и стала комплексной моделью, охватывающей широкий спектр отраслей и выдающимися возможностями автоматического решения проблем в горнодобывающем бизнесе с истекшим сроком действия.

4.2 Wide & Dual-LSTM

Одновременно с итерацией обновления модели одновременно выполняется построение основных признаков. При расширении новых функций тренда мы сталкиваемся с такой проблемой.Новые функции имеют больше измерений и более короткие временные ряды, поэтому при сопоставлении функций длинных временных рядов и функций коротких временных рядов по точкам будет большое количество пропущенных значений.

Из-за большого количества недостающих частей и больших размеров новых функций негативное влияние заполнения недостающих значений будет слишком серьезным, чтобы его можно было принять. В проекте используется схема «разделяй и властвуй» для создания двух модулей RNN соответственно.Длинный модуль RNN вводит длинные последовательности без новых функций, а короткий модуль RNN вводит короткие последовательности с новыми функциями.Наконец, скрытый слой и широкая часть двойные RNN соединены вместе, получается модель Wide & Dual-RNN, структура которой показана на рисунке.

Двойная структура RNN может хорошо интегрировать новые функции в существующую модель и повысить точность суждения.Недостатком является то, что сложная структура влияет на эффективность вычислений. Поэтому на более позднем этапе был проведен новый этап исследований и разработок, и для итерации использовалась более гибкая модель временных рядов TCN.

4.3 Wide & Attention-TCN

TCN в основном имеет следующие три преимущества, которые делают его пригодным для моделирования временных рядов: во-первых, свертка в архитектуре имеет причинно-следственную связь, то есть отсутствует утечка информации из никогда в прошлое. Во-вторых, сверточные архитектуры могут преобразовывать последовательности произвольной длины в последовательности фиксированной длины. Кроме того, он использует остаточные модули и сложные свертки для создания долгосрочных зависимостей.

С точки зрения сравнения производительности, TCN может распараллеливать временные ряды как вектор, который имеет более высокую скорость вычислений, чем метод последовательных вычислений RNN на момент времени. Кроме того, TCN может преобразовать входные данные в одномерную последовательность, что позволяет избежать необходимости выравнивания объектов по временным точкам. Поэтому, убедившись, что идея Wide & Deep эффективна, мы пытаемся обновить структуру RNN части Deep до TCN.

Во-первых, признаки входной части сглаживаются, то есть временные ряды каждого измерения соединяются встык по очереди, как показано на рисунке, склеиваются в длинный вектор и используются в качестве входных данных. Это обеспечивает эффективную интеграцию длинных и коротких функций.

Во-вторых, для структуры вывода для оптимизации вводится механизм Attention размерности последовательности. Основная идея состоит в том, чтобы больше не только считывать сжатую информацию о скрытом векторе последнего узла последовательности, но и получать агрегированную информацию о скрытом векторе после взвешивания информации о скрытом векторе всех узлов последовательности, чтобы результаты обучения все узлы могут быть полностью использованы.

Наконец, суммарный скрытый вектор, полученный после Attention-TCN, соединяется со скрытым слоем широкой части, и полученная структура модели Wide&Attention-TCN показана на рисунке.

Благодаря внедрению новой упрощенной временной модели TCN и механизма Attention производительность новой модели была дополнительно улучшена, но процесс настройки стал более сложным, чем RNN. После нескольких раундов настройки параметров и структурной оптимизации окончательная версия реализации по сравнению с версией Wide & Dual-LSTM значительно улучшила вычислительную эффективность и возможности расширения бизнеса и набора персонала.

5. Резюме и перспективы

Реализация глубокого обучения в просроченных сценариях майнинга прошла через итеративный процесс непрерывного исследования, обобщения проблем, оптимизации решений и проверки результатов. В течение этого периода, с основной целью улучшения устаревших возможностей обнаружения, были изучены перспективы расширения функций, построения функций и оптимизации структуры модели, а также был обобщен опыт вышеуказанных бизнес-сценариев. Среди них богатые и надежные функции, соответствующее представление функций и структура модели, соответствующая сценарию, являются ключом к улучшению способности решать бизнес-задачи.

Текущая модель в основном обобщает макроскопические законы, основанные на информации и тенденциях, и оценивает вероятность истечения POI с такими характеристиками. В реальной жизни нельзя игнорировать влияние отдельных факторов, таких как конкретное географическое окружение POI, собственные условия ведения бизнеса и окружающая ситуация с конкуренцией. Таким образом, будущее планирование будет всесторонне учитывать общие характеристики регулярности и индивидуальные различия для достижения усовершенствованной добычи.

6. Ссылки

1.Sepp Hochreiter and Jurgen Schmidhuber, Long Short-Term Memory, Neural Computation 1997

2.B. Hidasi, A. Karatzoglou, L. Baltrunas, and D. Tikk. Session-based recommendations with recurrent neural networks. CoRR, abs/1511.06939, 2015

3. Хенг-Цзе Ченг, Левент Кок, Иеремия Хармсен, Тал Шакед, Тушар Чандра, Хриши Арадхи, ГленАндерсон, Грег Коррадо, Вей Чай, Мустафа Испир, Рохан Анил, Закария Хак, Личан Хонг, Вихан Джайн, Сяобин Лю и Хемаль. Шах, Широкое и глубокое обучение для рекомендательных систем, В материалах 1-го семинара по глубокому обучению для рекомендательных систем, страницы 7–10, 2016 г.

4. Пол Ковингтон, Джей Адамс и Эмре Саргин, Глубокие нейронные сети для рекомендаций на YouTube, Материалы 10-й конференции ACM по системам рекомендаций, ACM, 191–198, 2016.

5.Bai S , Kolter J Z , Koltun V . An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling[J]. 2018.

6.Pappas N , Popescu-Belis A . Multilingual Hierarchical Attention Networks for Document Classification[J]. 2017.