Эволюция технологии обработки географического текста в AutoNavi(Ⅱ)

искусственный интеллект

В последней части мы представили общую эволюцию технологии обработки географического текста в AutoNavi и представили несколько пунктов общего анализа запросов. В следующей части мы выберем несколько уникальных методов анализа текста при обработке текста поиска по карте для анализа, включая анализ города, анализ местонахождения, планирование пути и сделаем прогноз на будущее.

В-четвертых, эволюция технологии анализа запросов

4.1 Городской анализ

В сценарии поиска AutoNavi Maps, от индексации базовых картографических данных до онлайн-вызова и отображения конечного продукта, степень детализации основана на административных единицах муниципального уровня. В дополнение к запросу, введенному пользователем, требование полного поиска также будет включать две информации о городе: город на поверхности пользователя и город местоположения пользователя.

Обычно большинство целей поиска находится под изображением или городом, в котором находится пользователь, но все же есть некоторые цели поиска, которые необходимо выполнить в других городах. Точное определение целевого города, запрошенного пользователем, является первым шагом к удовлетворению потребностей пользователя потребности.Также чрезвычайно важный шаг.

zhangqiang2-1.png

В процессе стратегии анализа запросов некоторые стратегии будут выполняться одновременно с несколькими результатами анализа города, поэтому с точки зрения архитектуры результаты анализа города должны быть небольшими и точными. В то же время существуют очевидные различия в информации о городе местоположения пользователя, наземном городе и удаленном городе.Будь то априорная достоверность вывода или использование апостериорных признаков для выбора, возникает проблема несопоставимых признаков.

При принятии решений с апостериорным намерением, когда несколько городов имеют релевантные результаты, один признак имеет проблему недостаточной убедительности. Как объединить несколько измерений, таких как априорная достоверность и апостериорные признаки POI, — все это вопросы, которые мы должны рассмотреть.

Первоначальный модуль анализа города принял общий процесс предварительного анализа города и последующего выбора города.

zhangqiang2-2.png
Однако исходная стратегия относительно проста и имеет следующие проблемы:

  • Проблема 1: И априорные, и апостериорные основаны на правилах, которые неэффективны и плохо сопровождаются;

  • Проблема 2: Система признаков несовершенна. Исходный анализ города использует только функции уровня запроса, включая клики, перезапись сеанса, совпадение запроса и города и т. д., и плохо обрабатывает низкочастотные запросы.

Технологическая трансформация

Модернизация 1: городской анализ

zhangqiang2-3.png
план

Урбанистический анализ представляет собой проблему легкого припоминания и тяжелого выбора, и мы разрабатываем городской анализ как двухэтапную задачу припоминания + выбора.

На этапе отзыва мы в основном извлекаем ресурсы функций из двух гранулярностей запроса и фразы, а затем объединяем города-кандидаты.

На этапе сортировки необходимо оценить город-кандидат, определить, должен ли он быть целевым городом, и использовать gbdt для выполнения подбора двух классов.

Пример сборки

Что касается образцов, мы выбираем случайный выбор из журналов поиска и после простой очистки выполняем ручную аннотацию. При построении выборок возникает проблема неравномерного распределения местных и разных выборок, а локальный спрос намного больше, чем спрос в разных местах.Здесь необходимо исключить характеристики, связанные с локальными и разными местами, чтобы избежать смещения модели.

система признаков

Ключевые особенности включают в себя:

  • Функции на уровне запроса: например, клики пользователя по определенному запросу&city;

  • Функции на уровне фраз: Подобно функциям на уровне запроса, статистика выполняется с большей степенью детализации;

  • Объединение признаков: чтобы решить проблему недостаточной репрезентативности одного признака, здесь мы выполняем некоторые искусственные комбинации признаков.

Модернизация 2: Выбор города

zhangqiang2-4.png
план

Выбор города находится ниже по течению общего процесса принятия решений о намерениях: несколько намерений сначала определяются внутри города, а затем города сопоставляются друг с другом. Проблема выбора города может быть понята как проблема сортировки среди нескольких городов.Здесь мы используем ltr для моделирования выбора города.

Пример сборки

Используя результаты случайного запроса с несколькими городами в качестве выборок, каждое извлечение имеет только один отображаемый город, поэтому каждый раз вам нужно только выбрать цель из города-кандидата в качестве положительной выборки, а другие города-кандидаты используются в качестве отрицательных выборок, формируя пара с целевым городом. .

Художественное построение

Ключевые особенности включают в себя:

  • предшествующие черты. Например, уверенность в результатах анализа города;

  • особенности текста. Некоторые основные функции релевантности текста;

  • Щелкните Функции. например, интенсивность кликов в разных городах намерений;

  • Функция намерения. Некоторые функции могут влиять на выбор города пользователем, например, расстояние между местоположением пользователя и первым POI.

По сравнению с первоначальным анализом города и выбором города, все два модуля обрабатываются с помощью машинного обучения, а удобство сопровождения значительно улучшается, а плохие случаи значительно сокращаются. В последующем моделировании мы рассматриваем городской анализ как прикладную задачу верхнего уровня и связываем его с унифицированной моделью анализа запросов через многозадачность, что уменьшает связь между функциями и обеспечивает дальнейшее улучшение.

4.2 где что анализ

Запрос в сцене карты часто содержит описания нескольких пространственных семантических фрагментов.Только правильно идентифицируя основную часть запроса и делая то, что для отзыва, и используя часть пространственного описания, чтобы определить, где, можно получить POI, который хочет пользователь. Например, запрос = KFC в Удаокоу, район Хайдянь, Пекин, что = KFC, является общим спросом. query=Bayview на пересечении Xinting Street и Xinhu Avenue, Banqiao Street, Yuhuatai District, Nanjing City, what=Bayview, является точным требованием. Этот вид потребности найти B рядом с A или найти B в диапазоне A называется спросом где что, или для краткости ww.

zhangqiang2-5.png
при этом анализ намерений в основном включает в себя априорную и апостериорную две части. Априори, чтобы сделать где что сегментация, это проблема маркировки последовательности, помечающая, какие части запроса находятся где и какие части что, и в то же время дает пространственное положение где. Апостериорный анализ должен выполнять выбор намерений и выбирать, отображать ли результаты намерений «где какие», которые могут быть преобразованы в задачи классификации или ранжирования.

Основная трудность системы «где что» — это сегментация ww, которая не только должна иметь дело с проблемами низкой частоты, среднего и длинного хвоста, с которыми приходится сталкиваться другим модулям анализа запросов, но также должна иметь дело с уникальной проблемой понимания намерения ww. Если значение неоднозначно, например, автовокзал Пекинской долины счастья, арка деревни Юнбянь и т. д., запрос следует сократить или нет, и результаты сильно различаются. Подобно преобразованию порядка слов, например query=Carnival Xicaotian, Shanxing Temple Xiaozhai, если выражение в обратном порядке не может быть правильно распознано, эффект может быть плохим.

Состояние и проблемы

статус кво

Сегментация: модуль «где что» находится ниже модуля анализа компонентов и в основном опирается на характеристики анализа компонентов. Для некоторых относительно регулярных запросов она решается паттерном компонентного анализа и комбинирования, для некоторых средне- и длиннохвостых запросов добавляется модель crf для обозначения ww.

Выбор: Суждение и выбор намерения на основе человеческих правил.

  • Проблема 1: Модель сегментации проста. Модель сегментации на основе crf использует одну функцию, в значительной степени зависит от функций компонентов и не может быть проанализирована в состоянии черного ящика;

  • Проблема 2: апостериорное суждение о намерении, правила накапливаются, и поддерживать их непросто;

  • Проблема 3: Задача обратного порядка не решается. Поскольку большая часть корпуса запросов находится в положительном порядке, модель плохо работает с небольшой долей запросов обратного порядка.

Технологическая трансформация

инструмент анализа проблем crf

Чтобы проанализировать проблему исходной модели сегментации crf, мы разработали инструмент анализа модели crf на основе исходного кода crf++, который может интерактивно отображать процесс прогнозирования на основе алгоритма Витерби и превращать анализ модели в черный ящик в белый ящик.Проанализирован ряд задач.

zhangqiang2-6.png
В то же время инструмент анализа проблем crf применяется и к другим модулям анализа запросов.

  • Модернизация 1: Создание признаков и оптимизация модели
    zhangqiang2-7.png
    Исходная модель в значительной степени зависит от компонентного анализа. Из-за проблем с точностью самой функции компонентного анализа мы суммируем некоторые более надежные статистические функции из запроса пользователя.

префикс уверенность

Описывает долю фрагментов с префиксом. Например, Wangjing Kaidemao, Wangjing Futong и Wangjing также можно искать отдельно.Если Wangjing имеет высокую долю префиксов, это означает, что этот сегмент имеет относительно сильную способность делать где.

Суффиксная энтропия

Он описывает дискретную степень суффиксов, таких как Wangjing Kaidemao, Wangjing Cuisine, Wangjing Shoukai, суффикс очень беспорядочный, и он также может объяснить способность фрагмента делать где.

какая уверенность

Доля отдельных поисков клипов, например, Саймон часто появляется в конце клипов, но отдельных поисков меньше, да и возможности этого клипа относительно слабы.

Принимая диапазон собственных значений за горизонтальную ось, где и что, а метку за вертикальную ось, получается кривая метки признака. Судя по кривым меток этих признаков, в определенных интервалах различение еще очень хорошее. Поскольку модель crf принимает только дискретные функции, кривая меток функций также определяет пороговый выбор для дискретизации функций. Для низкочастотных запросов мы также можем повысить производительность нашей модели в низкочастотных задачах с помощью статистики высокочастотных сегментов в низкочастотных запросах.

  • Модернизация 2: Обновление выбора апостериорного намерения

Первоначальные правила стекирования модернизируются до модели машинного обучения gbdt, и вводятся априорные функции, которые не только получают определенные преимущества, но и делают всю систему более разумной.

zhangqiang2-8.png

  • Модернизация 3: Оптимизация надежности

Абстрагирование проблемы обратного порядка в ww можно резюмировать как проблему устойчивости при анализе запросов. Поскольку оптимизация стратегии переходит в глубоководную область, возникает проблема, заключающаяся в том, что улучшение стратегии незаметно для пользователей, а случай атаки легко проникает в систему.

zhangqiang2-9.png
Как показано на рисунке выше, если пользователь изменит порядок где и что в запросе, эффект может ухудшиться. При поиске трансформируемого города логика прыжка для одного и того же известного живописного места несовместима. Ошибка ввода пользовательского деления, исправление ошибок не может быть распознано, эффект становится очень плохим. Способность этого модуля выполнять неожиданные преобразования запросов или, в более общем смысле, воздействовать на восходящие и нисходящие функции, мы можем назвать устойчивостью модуля.

Здесь мы разрабатываем решение общей проблемы устойчивости

zhangqiang2-10.png
Исходя из того, что сложные модели не вводятся, путем построения неглубокой модели ансамбля для оптимизации конкретных проблем стоимость решения проблем снижается.

Для конкретной проблемы обратного порядка ww используется повторное использование признаков, а модель внешне унифицируется.

zhangqiang2-11.png
С точки зрения эффекта, эффект новой модели в исходном тестовом наборе такой же, точность искусственно созданного набора случаев атаки значительно улучшена, а целевой набор случаев имеет значительный коэффициент разрешения, что подтверждает, что идея надежная оптимизация эффективна.

Полное обновление системы ww было в основном завершено, и болевые точки в системе были в основном решены. Модель сегментации оптимизирована, и процесс стал более разумным. Принятие решений по намерениям завершает обновление правил до моделей машинного обучения. При оптимизации или внедрении неглубоких моделей машинного обучения максимально раскрывается потенциал неглубоких моделей, что закладывает основу для перехода от неглубоких моделей к глубоким моделям.

В последующем моделировании мы используем модель зернистости слов lstm+crf для замены существующей модели crf, которая полностью избавляется от зависимости от особенностей компонентного анализа, и дополнительно улучшает эффект за счет интеграции информации о знаниях в модель lstm+crf.

4.3 Планирование пути

В сценарии поиска AutoNavi Maps одним из типов намерений поиска пользователя является намерение планирования пути. Например, когда пользователь вводит «из Хуйлунгуань в Гуанъин» в поле поиска приложения AutoNavi Maps и нажимает кнопку поиска, служба поиска может идентифицировать цель поиска пользователя как планирование пути и определить начальную точку, описанную пользователь как «Huilongguan» », конечная точка — «Laiguangying», а затем извлекаются соответствующие точки POI для планирования маршрута для нижестоящих служб.

zhangqiang2-12.png
Идентификация намерения планирования пути из пользовательского ввода и извлечение соответствующих начальных и конечных точек — типичная задача НЛП. Модуль раннего планирования пути использовал метод сопоставления шаблонов, который имеет низкую стоимость разработки и может решить наиболее распространенные проблемы планирования пути, такие как описанная выше проблема «от А до Б».

Однако, с непрерывным развитием бизнеса, проблемы, которые должен решать модуль, становятся все более и более сложными, такие как «где мне выйти из Xizhimen в Daxing Langfa на метро», «через какие города я проезжаю из провинции Гуандун». в Аньхой», «Ехать в Циндао», у вас есть автобус?» и т. д. различные вопросы, не относящиеся к режиму «А-Б». Поскольку метод сопоставления шаблонов не имеет возможности обобщения, его можно решить только путем непрерывного добавления шаблонов, что делает модуль все более и более тяжелым и сложным в обслуживании.

оптимизация

Поскольку все запросы онлайн-поиска будут проходить через модуль планирования пути, если модель должна обрабатывать все запросы, модель должна не только решать проблему распознавания намерений (проблема отзыва), но и решать проблему извлечения слота (проблема точности). ● Модели трудно одновременно хорошо усвоить обе задачи. Поэтому мы приняли следующую трехступенчатую формулу:

zhangqiang2-13.png
Перед моделью стратегия сопоставления ключевых слов используется для простого распознавания намерений, и большинство запросов, не связанных с планированием путей, отфильтровываются; модель обрабатывает запросы, подозреваемые в планировании путей, и выполняет извлечение слотов; после модели результаты модели проходят дальнейшее тестирование.

Образцы и особенности

Образцы машинного обучения, как правило, получаются из ручного аннотирования, но ручное аннотирование отнимает много времени и средств. Поэтому мы принимаем метод автоматической маркировки образцов. Обогащая режим планирования пути, такой как «Как сесть на автобус из А в Б», а затем использовать очищенный случайный запрос, чтобы заменить начальную и конечную точки в соответствии с распределением длин фактических начальной и конечной точек для создания большое количество маркированных образцов.

Что касается функций, мы используем функции анализа компонентов и функции словаря POI, содержащие ключевые слова. В основном они играют роль различения ключевых слов в запросах, содержащих ключевые слова в начальной и конечной точках, например «отсюда до дома 58».

обучение модели

Алгоритм crf широко используется в отрасли для построения вероятностных графических моделей для задач маркировки последовательностей. Мы также выбираем алгоритм crf.

оценка эффекта

С точки зрения точности и скорости отзыва валидационного набора, а также оценки эффекта случайного запроса показатели были значительно улучшены.

Для направленной задачи NLP, такой как планирование пути, модель crf используется для перехода от правил к моделям машинного обучения. В качестве задачи прикладного уровня планирование пути также легко переносится в многозадачную модель обучения seq2seq.

В. Перспективы

За последние два года, благодаря всестороннему применению машинного обучения и множественных итераций эффектов, основанных на рациональности, текущая оптимизация эффектов обработки географического текста вышла в глубоководную область. Мы считаем, что будущая оптимизация будет сосредоточена как на нападении, так и на защите.

Атака в основном нацелена на низкочастотные и средние и длинные хвосты. Исходя из того, что проблемы средней и высокой частоты в основном решены, как мы можем использовать технологию глубокого обучения для выполнения унифицированного моделирования обработки географического текста seq2seq, дальнейшей оптимизации задач низкой частоты, средней и длинной хвостовой части и получения нового раунда? улучшения эффекта Вопросы для размышления сейчас. Кроме того, как лучше интегрировать информацию о знаниях в модель, чтобы модель могла иметь априорную способность суждения, близкую к человеческой, также является способностью, которую нам необходимо срочно улучшить.

Защита в основном нацелена на надежность системы. Например, нетипичные выражения пользователей, изменение запросов и другие вопросы ориентации, как решить тупиковые ситуации этих стратегий посредством оптимизации ориентации и повысить отказоустойчивость системы — это также вопросы, которые нам необходимо рассмотреть в настоящее время.

Хотя поиск по карте является вертикальным поиском, воробей маленький и полный, и в сцене карты есть много уникальных трудностей. В будущем нам нужно продолжать использовать передовые технологии отрасли и оптимизировать их в сочетании с характеристиками географического текста, и понимание станет более интеллектуальным.