Эволюция текущей ситуации, улучшение географических точек интереса Гаоде

искусственный интеллект

1. Введение

На карте AutoNavi люди увидят множество географических достопримечательностей (Point of Interest, сокращенно POI), таких как рестораны, супермаркеты, живописные места, гостиницы, вокзалы, парковки и т. д. Измерения оценки данных POI включают текущую ситуацию, точность, полноту и богатство. Среди них текущая ситуация относится к степени, в которой геопространственная информация, предоставленная картой, отражает текущую ситуацию.Короче говоря, улучшение текущей ситуации относится к поиску устаревших и избыточных данных POI, которые были закрыты, перемещены, переименованы, и снесен как можно быстрее, и Процесс обработки его в автономном состоянии.

Излишние данные с истекшим сроком действия в сети повредят пользовательскому опыту После расчета один процентный пункт скорости истечения срока действия основных онлайн-данных влияет на работу пользователя 300 миллионов раз в год. Поэтому крайне важно решить проблему истечения срока действия POI, чтобы улучшить текущую ситуацию и уменьшить вред для пользователя.

Решение проблемы истечения срока действия POI делится на две части: обнаружение и обработка. Установлено, что линия добычи является доминирующей, а линия сбора и линия общественного мнения дополняются. Естественным преимуществом сбора является предоставление собственных данных проверки, но недостаток также очевиден, стоимость высока, а частота распространения низкая, поэтому своевременность обнаружения невысока, и линия сбора должна пройти через линия майнинга, если она устарела; общественное мнение в Интернете имеет высокую своевременность, но меньший охват И рентабельность инвестиций низкая; как интеллектуальный анализ больших данных с высоким охватом, высокой своевременностью и низкой стоимостью, это абсолютная главная сила.

В ссылке обработки есть три метода: ручная проверка, автоматическая маркировка и автоматическая офлайн. Ручная проверка связана с проблемой отсутствия данных проверки, что приводит к низкой скорости проверки. Это связано с тем, что данные наблюдения, на которые полагались при добыче полезных ископаемых, не могут предоставить устаревшие реальные доказательства молотка. Их можно найти, и с ними трудно иметь дело, Таким образом, с развитием майнинга были созданы два метода обработки, автоматическая маркировка и автоматическое автономное использование, а также соответствующий механизм контроля рисков (восстановление маркировки, автономное восстановление), с одной стороны, была улучшена производительность обработки. стороны, стоимость рабочей силы снижается.

Примечание. Автоматическая маркировка — это способ связи с интерфейсным поиском для обработки устаревших данных с высокой вероятностью в оттенках серого: данные маркировки не отображаются без уточненного поиска, а уточненный поиск сопровождается устными подсказками. Основная идея, лежащая в основе этого, состоит в том, чтобы перейти от реального молоткового мышления традиционных дилеров карт к интернет-мышлению, чтобы вовремя связаться с пользователями и быстро подключиться и выйти.

В этой статье в основном будет представлена ​​эволюция майнинга.Как основной метод устаревшего обнаружения, майнинг сталкивается с тремя основными проблемами на разных этапах: нехватка данных, трудности с повышением точности и нехватка данных.Оглядываясь назад сегодня, этот процесс можно разделить на три стадии:

  • Интеллектуальный анализ срока действия POI на основе собственных атрибутов

  • Срок действия интеллектуального анализа POI на основе поведения использования

  • Истечение срока действия POI на основе отношений между человеком и землей

Мы используем технологии интеллектуального анализа данных, такие как стратегия, машинное обучение и глубокое обучение, чтобы преодолеть просроченный бизнес добычи POI от точки до поверхности, от грубой до тонкой, и режим улучшения текущей ситуации POI претерпел глубокие изменения.

2. Эволюция методов интеллектуального анализа данных

2.1 Этап 1: майнинг POI истек на основе его собственных атрибутов

Основным противоречием на ранней стадии является отсутствие данных майнинга.Если одновременно выполнять перехват данных POI и стратегию майнинга, основанную на данных перехвата, ссылка майнинга будет длинной, а риск проекта будет высоким. Следовательно, при улучшении возможности агрегирования новых данных POI собственные атрибуты POI используются в качестве основных данных интеллектуального анализа данных. Команда AutoNavi по POI имеет большой опыт сбора и слияния информации.Атрибуты POI можно условно разделить на три категории: базовая информация, глубинная/динамическая информация и реляционная информация.

Основная информация: представляет объект, включая имя, координаты, адрес, отрасль, телефон, время, источник и т. д.

Углубленная/динамическая информация: увеличьте богатство данных POI, включая: изображения, рейтинги, комментарии, групповые покупки, цитаты и т. д.

Информация о взаимосвязи: взаимосвязь между POI через семантику, время и пространство, включая родитель-потомок, ссылку, совпадение и т. д.

Для разных атрибутов мы разрабатываем разные стратегии для поиска POI с истекшим сроком действия. В зависимости от сложности мы в основном делим стратегии на: майнинг на основе одной POI и майнинг на основе нескольких POI. Самая большая разница между ними заключается в том, следует ли использовать информацию о взаимосвязи между POI. Вот несколько типичных стратегий:

Таблица использования функций политики

◎ представляет ключевые функции, △ представляет дополнительные функции

Семантический анализ с истекшим сроком действия комментариев является типичной стратегией анализа данных на основе отдельных POI. Комментарии к подробной/динамической информации – один из эффективных способов получения отзывов пользователей о POI, в том числе отзывов о POI с истекшим сроком действия. Мы можем легко найти такие комментарии, сопоставив ключевые слова. Контекст контекста и контекста приведут к изменениям в семантике ключевых слов.По этой причине мы используем модель TextCNN для достижения семантической классификации, чтобы достичь цели устранения неоднозначности и отфильтровать комментарии, которые действительно выражают просроченный POI. Следующее:«Исходный» анализ взаимосвязей использует эталонную связь между POI и представляет собой стратегию исследования, основанную на множестве POI. Мы используем технологию извлечения сущностей, чтобы получить два имени POI «исходного» отношения (новое и старое отношение) в именах POI, псевдонимах или адресах, содержащих «исходное» ключевое слово, и найти POI с истекшим сроком действия, соответствующее старому имени, с помощью технологии агрегации.

Стратегия одного и того же адреса использует противоречивые отношения между адресами и номерами домов. Логика такова: обычно на одном номере дома (включая внутренние водные знаки) находится только один действующий объект, а если на адресе два или более объектов, не являющихся агрегированными объектами (торговые центры, парки и т. д.), должен быть POI с истекшим сроком действия. Мы используем теорию графов для моделирования проблемы, берем набор POI с одинаковым номером дома, рассматриваем POI как узлы, а отношения между POI (родитель-потомок, родной брат, совпадение, ссылка и т. д.) — как ребра. Набор разбивается на K связанных подграфов с использованием алгоритма декомпозиции максимальной связности, и каждый подграф рассматривается как объект или агрегированный объект. Если K=2, подграф с более ранним временем обновления выводится как предполагаемый просроченный набор.

Стратегия с одним и тем же телефоном — одна из немногих стратегий, которые могут соответствовать конкретному явлению экспирации. Возьмите набор POI с одним и тем же телефоном, аналогично той же стратегии адресов, с помощью семантического расчета имени, пространственного расчета, отношения совместного появления, отношения родитель-потомок и т. д., чтобы устранить шум, такой как агрегированные объекты, сетевые магазины, подозрительные дублировать данные и на основе схожести имен и отношений расстояния различать явления смены имени и перемещения. Телефон на самом деле представляет реального человека, стоящего за POI.О том, истек ли срок действия POI, можно судить по изменению поведения человека, и даже можно сделать вывод о конкретном феномене истечения срока действия POI.

Благодаря зрелости способности POI объединять несколько новых источников данных становятся доступными новые данные интеллектуального анализа данных. Наше внимание также постепенно сместилось на добычу полезных ископаемых на основе поведения при использовании POI.

2.2 Фаза 2: анализ срока действия POI на основе поведения пользователя

При переходе ко второму этапу отсутствие интеллектуального анализа данных уже не является основным противоречием в решении проблемы, и на первый план выходят проблемы низкой скорости ручной проверки и недостаточной мощности обработки, поэтому возникает острая необходимость в создании возможностей автоматической маркировки/автономных режимов ( улучшение). Суть интеллектуального анализа истечения срока действия заключается в восприятии изменений, происходящих с истечением срока действия POI, и выполнении анализа наблюдения после события.Например, истечение обычно сопровождается снижением активности POI (объем консигнационного заказа и т. д.).

Как упоминалось выше, данные наблюдений, на которые опирались при добыче полезных ископаемых, не могут свидетельствовать о просроченных реальных молотах (например, исчезновение накладной не является просроченным настоящим молотком); и существует несколько типов просроченных факторов сильной корреляции, естественные ошибки восходящего потока введен, и в реальном мире есть Байесовский.Кроме того, с ходом решения проблемы текущая ситуация с онлайн-данными POI увеличивается, а скорость истечения уменьшается.При условии, что данные наблюдения фиксированы, вывод и точность просроченного майнинга будет естественным образом уменьшаться со снижением темпа экспирации.Все вышеперечисленное приведет к точной Улучшить скорость сложно, поэтому сложность повышения точности становится основным противоречием на данном этапе.

На уровне функций мы справляемся с этим с помощью шумоподавления и уточнения.Из-за ограничений по объему эта статья пока не будет представлять его. На уровне алгоритма это решается посредством технологических апгрейдов. Дорожная карта: от правил к моделям, от неглубоких моделей к глубоким моделям, от принятия решений из одного источника к объединению информации из нескольких источников, от объединения информации из нескольких источников на уровне принятия решений к объединению информации из нескольких источников на уровне функций.

В зависимости от того, необходимо ли ссылаться на историческую ситуацию, мы разделяем анализ срока действия POI на основе поведения использования на две категории: аномалии временных рядов и аномалии событий.

2.2.1 Аномальное время

Состояние выживания POI может быть косвенно отражено соответствующей активностью поведения использования, а итеративное решение проблем предпринимается с точки зрения тенденции поведения использования.Основная идея модели тренда состоит в том, чтобы измерить состояние выживания POI путем подсчета активности активности использования, связанной с определенным временным окном, и определить, истек ли срок действия POI, анализируя затухание активности по отношению к историческая ситуация.Основным предположением является тенденция временного ряда.Падение положительно коррелирует с истечением POI. Характеризуясь временными рядами ежемесячных статистических данных с известной информацией о деятельности, мы завершили разработку четырех итерационных этапов RF->RNN->Model fusion->Wide&Deep.

Ввиду высокой точности RF в задачах классификации и принятия решений, сложности переобучения, сильной адаптируемости к наборам данных, эффективной реализации и естественного соответствия правилам мышления, он может стать первым выбором для проверки выполнимости проблемы. -схема решения. Решение состоит в том, чтобы построить модель со значением каждого временного узла для каждой функции в качестве входного измерения. RF был запущен в производство с высокой точностью и высокой производительностью, что подтверждает важность поведенческих тенденций в майнинге с истекшим сроком действия.После этого будут произведены дальнейшие технические доработки по некоторым недостаткам РФ. Во-первых, модель не может изучить корреляцию тенденций между последовательными временными узлами, а информация о временных рядах используется не полностью; во-вторых, необходимо создать индивидуальную модель для решения таких проблем, как отсутствие различных типов признаков и слияние длинных и короткие последовательности, а несколько моделей увеличивают нагрузку на техническое обслуживание. Следовательно, для итеративной модернизации необходимо выбрать модель RNN с очевидными преимуществами в области временных рядов.

Путем построения многослойной глубокой сети LSTM реализуется углубленный анализ информации о корреляции тенденций.В то же время, в соответствии с различиями в распределении данных для разных сегментов тепла, принимается каждый оптимальный метод заполнения отсутствующих признаков, что позволяет избежать многомодельная схема решения проблем и облегчает бизнес-операции. Модель RNN значительно улучшает возможности обнаружения, особенно возможности автоматизации.Хотя RNN улучшает способность к обучению характеристик временных рядов по сравнению с RF, недостаток информации по-прежнему ограничивает возможности автоматизации модели. Мы продолжаем разрабатывать модели объединения, которые позволяют принимать решения по объединению информации из нескольких источников. Идея состоит в том, чтобы рассмотреть RF, RNN, зону сноса и другие существующие базовые модели, стратегии и белые списки в качестве подклассификаторов в единой структуре, а затем построить на этой основе байесовскую сеть для объединения информации из нескольких источников при принятии решений. слой. По сравнению со слиянием информации из нескольких источников на функциональном уровне, он имеет быструю реализацию и четкий эффект, обеспечивает стабильный и высокоточный автоматический автономный вывод для просроченного бизнеса и значительно улучшает возможности автоматизации.Четвертый этап – дальнейшая оптимизация с точки зрения объединения информации из нескольких источников. С одной стороны, слияние на уровне решений приводит к большей потере информации, чем слияние на уровне функций; с другой стороны, некоторые модели/стратегии соответствуют стандартам точности для бизнес-производства только для POI некоторых категорий, что приводит к неудовлетворительным результатам вывода для категорий, которые не соответствуют стандартам, могут быть использованы в полной мере. Поэтому с точки зрения реализации слияния информации из нескольких источников на функциональном уровне новая бизнес-модель строится со ссылкой на идею Wide & Deep.

Общая идея состоит в том, чтобы закодировать и представить множество не поддающихся количественной оценке или сопоставимых атрибутивных функций и функций информации о состоянии, а затем использовать полностью связанный слой для уменьшения измерения в виде широкой части; использовать модель RNN в качестве глубокой части и, наконец, связать две части. После нескольких раундов итеративной оптимизации модель может быть стабильно запущена в производство, а ее возможности автоматизации были дополнительно улучшены.Он стал комплексной моделью, охватывающей широкий спектр отраслей и обладающей выдающимися возможностями автоматического решения проблем в просроченной добыче полезных ископаемых. бизнес.Подводя итог, можно сказать, что соотношение человеко-машинного решения проблем значительно снижается, что решает проблемы низкой скорости ручной проверки и недостаточной вычислительной мощности, а также значительно снижает стоимость.

2.2.2 Исключение события

Существующие модели аномалий временных рядов в основном полагаются на использование поведенческих тенденций для вынесения суждений, и существует потолок, охватываемый данными майнинга.В качестве примера можно взять заправочные станции, банкоматы, общественные туалеты и т. д. к их собственным атрибутам.Данные, трендовые модели бессильны. Поэтому предлагается модель аномальных событий на основе журналов (Сеанс) для подсчета аномальных событий, вызванных неудовлетворительными требованиями незнакомых групп после достижения POI с истекшим сроком действия, и заполнения слепых зон аномальной модели временных рядов, то есть использовать только журналы. для извлечения аномалий, связанных с POI, без обращения к исторической ситуации Поведенческие события, накопление недавних аномальных событий для измерения нормального состояния выживания POI.

Трудности при добыче бревен

Массовое ведение журнала. Прямое использование не только потребляет много ресурсов, но и имеет большое количество избыточных данных, вызывающих помехи. Как извлечь устаревшие функции из массового поведения — сложный проект.

Поведение случайное. Например, во многих сценариях навигация будет прекращена раньше конечной точки, так что невозможно определить, достигнута ли цель; в некоторых сценариях планируется идти к цели, но фактическая цель может судить по конечной траектории.структура решения проблем

В ответ на вышеуказанные проблемы, конкретные сценарии ненормальных событий в основном строятся посредством анализа просроченных случаев POI в полевой оценке, таких как попытка сообщить об ошибке после прибытия, быстрый запуск вторичной гомогенизированной навигации после прибытия и т. д. Используется приведенная выше статистика. в качестве входных данных функции, которые могут сосредоточиться на корреляции фрагментов журнала и уменьшить шум случайного поведения. Общая схема решения проблемы показана на рисунке выше: события, связанные с POI, анализируются из разных источников сеанса, объединяются в сцену 1, сцену 2, сцену... Объединение окон генерирует соответствующие статистические признаки, вводит модель LR и выводит оценка срока действия POI. В настоящее время используется LR, и преимущество в том, что шум просто и грубо подавляется.

Эффект майнинга

Событийная модель Session Anomaly эффективно дополняет набор задач, которые не могут быть охвачены другими средствами, специализируется на POI автомобильных сервисов, бытовых услуг, развлекательных заведений, финансовых страховых услуг и других категорий, является незаменимой частью просроченного майнинга, и есть еще большие обобщения, напоминающие космические.

2.3 Фаза 3: срок действия POI истек на основе отношений между человеком и землей

2.3.1 Построение отношений между людьми и землей

Просроченные POI с богатыми (насыщенными) функциями тренда легко обнаруживаются моделями трендов. И когда функции тренда (поведение использования) разрежены (тонки), модель менее способна их найти. Поэтому на данном этапе необходимо решить проблему толщины данных и уменьшить зависимость от толщины данных за счет захвата подсказок ключевых групп (>2). Получение информации о поведении ключевых групп POI позволяет найти функции, которые раскрывают или даже объясняют истечение срока действия POI.

Поэтому на первом этапе нам необходимо построить отношения между людьми и землей, выяснить так называемые ключевые группы, которые называются внутренними группами, которые относятся к группам, зависящим от POI.Эти отношения между людьми и землей называются внутренними отношениями, а остальные — внешними отношениями.

Второй шаг заключается в обнаружении POI с истекшим сроком действия на основе изменений в пространственно-временных шаблонах движения внутренней группы и проблеме отзыва, когда функции дополнительного тренда редки. Первым шагом является построение отношений между людьми и землей, которые можно условно разделить на три уровня: уровень данных, уровень поведения и уровень модели.Они представлены следующим образом:

На уровне данных собирайте источники данных, которые могут быть связаны с POI, открывайте различные хранилища данных и связывайте различные типы данных с POI AutoNavi.

В слое поведения особенности поведения выражаются в двумерной матрице с окном в X дней, как показано на рисунке. Матричное представление может более четко отражать периодический закон поведения. Различные поведенческие последовательности можно рассматривать как матрицу различных каналов, которая хорошо адаптируется к асинхронности данных о поведении при сохранении масштабируемости (для каждого дополнительного поведения может быть добавлено представление канала).На уровне модели для многоканальных матричных признаков для выполнения задачи классификации используется глубокая сверточная сеть, ее базовая структура выглядит следующим образом:Эта структура в определенной степени уменьшает разреженность признаков, вызванную неполными данными, эффективно изучает временной закон поведения и получает ожидаемые результаты, что подтверждает доступность модели. На уровне модели с помощью стратегии дополнительного отзыва это помогает дополнительно улучшить покрытие POI внутренним отношением и завершить построение от 0 до 1.

Суммировать

Майнинг с истекшим сроком действия стал абсолютным основным средством улучшения текущей ситуации с POI. Этот путь, в котором преобладает интеллектуальный анализ больших данных, далек от завершения, и будущие направления развития, по крайней мере, таковы: внутригрупповой перенос времени и пространства, эссенциализация, общее решение проблем, снижение зависимости от объема данных; направленный интеллектуальный анализ устаревших явлений. улучшение, построение портрета жизнестойкости POI, экологическое исследование, переход от решения обратной задачи к решению обратной + прямой задачи. Мы будем усердно работать, чтобы предоставить пользователям лучший сервис для путешествий.