Сопоставление адресов и понимание естественного языка
- Китайские адреса в основном представляют собой неструктурированный китайский естественный язык.Суть сопоставления адресов заключается в том, чтобы связать текстовую информацию, содержащую информацию о местоположении, с пространственной информацией, что теоретически возможно.
- Методы понимания естественного китайского языка включают сегментацию китайских слов, семантическую маркировку, синтаксический анализ и семантическое рассуждение. В особом сценарии сопоставления адресов для этих четырех ссылок требуется специальная обработка.
- Ссылка на сегментацию китайских слов реализует сегментацию адресов
- Ссылка семантической маркировки реализует ролевую маркировку блока адресной сегментации.
- Синтаксический анализ реализует идентификацию типа адреса
- Семантическое мышление реализует пространственно-реляционное мышление
Состав и процесс алгоритма сопоставления китайских адресов на основе понимания естественного языка
Полный процесс алгоритма включает пять звеньев: предварительная обработка, разрешение адресов, стандартизация элементов адреса, сопоставление логического вывода и регистрация сопоставления.
- Первым шагом является предварительная обработка адресных данных, которые должны быть сопоставлены, и выполнение некоторой простой обработки кодирования и фильтрации информации.На этом этапе выполняется обычная обработка символов.
- Шаг 2 выполняет геокодирование обработанного адреса, преобразуя неструктурированный адрес в структурированное представление. (акцент)
- Третий шаг — стандартизировать элементы адреса структурированных адресов и преобразовать элементы адреса в стандартные элементы адреса.Этот шаг заключается в использовании библиотеки словарей для поиска стандартного имени, соответствующего имени элемента.
- Четвертый шаг заключается в выполнении сопоставления логических выводов по стандартизированным адресам, то есть в использовании взаимосвязи между элементами адреса и базой знаний (базой адресов) для выполнения семантических рассуждений для определения географических координат, соответствующих адресам, подлежащим сопоставлению. (акцент)
- Пятый шаг — регистрация результатов сопоставления, т. е. количественная оценка результатов сопоставления, описание результатов сопоставления в XML и запись их во внешние файлы.
Геологическая модель пространственного отношения и логическая модель адресной библиотеки
-
Китайский адрес состоит из названия места, названия единицы, номера дома и т. д. Эти компоненты называются элементами адреса, а элементы адреса являются основной единицей адреса.
-
Модель адреса представляет собой абстракцию адресов и используется для выражения отношений между элементами адреса.Пространственная реляционная адресная модель, чтобы решить абстрактную проблему китайских адресов с новой точки зрения.
- Обычно китайские адреса состоят из названий зон и местных названий, точек или номеров, и из-за ограничений описания их можно использовать только для описания обычных уличных адресов.
- При анализе китайских адресов обнаружено, что существует пять пространственных отношений между элементами адреса: отношения вмещения, смежности, смежности, пеленга и расстояния.
- Пространственные отношения между объектами адреса тесно связаны с типом объекта адреса. Отношения включения: регион содержит регион, дорогу, точку интереса (POI) или дорога содержит POI. Отношения смежности: область примыкает, область примыкает к дороге, дорога примыкает к POI, POI примыкает. Прилегание: соединение между дорогами. Связь ориентации: ориентация между точками POI. Отношение расстояния: расчет расстояния между точками POI.
-
Модель библиотеки адресов представляет собой модель хранения элементов адреса, которая используется для записи отношений между элементами адреса и устанавливается для модели библиотеки адресов.Логическая модель библиотеки адресов, этот метод решает проблему представления пространственных знаний адресной информации и хранения внутренней взаимосвязи адресных элементов с новой точки зрения. 
- Семантическое понимание основано на базах знаний. Библиотека адресов, также известная как справочная библиотека адресов, представляет собой базу данных механизма сопоставления адресов и отвечает потребностям сопоставления и обмена адресами.
- База адресов, разработанная по этому алгоритму, в основном ориентирована на два типа приложений: адреса проживания и адреса предприятий и учреждений.
- Хранение адресов в библиотеке адресов основано на структурированных элементах адреса в качестве базовой единицы, а пространственные отношения между элементами адреса являются основой для разработки модели библиотеки адресов.
- База данных адресов состоит из трех частей: подразделения, пространственного отношения и географического названия.
- Модель адресной базы данных нуждается в поддержке данных, и задача сбора данных является тяжелой.Основной метод - ручное картографирование и сбор изображений дистанционного зондирования высокого разрешения в виде карт, а ручные обследования дополняются в некоторых областях для снижения стоимости сбора данных. .
Геокодирование
-
Разрешение адресов относится к процессу разделения неструктурированных китайских адресов на элементы адреса и определения типа элементов адреса.
-
Алгоритм синтаксического анализа состоит из двух компонентов: сегментация признаков адреса и маркировка признаков адреса.
-
Процесс синтаксического анализа аналогичен процессу сегментации китайских слов, и вводится специальная технология обработки в соответствии с характеристиками китайских адресов, но сегментация адресов относится к технологии в области распознавания именованных объектов, поэтому возникнут следующие проблемы:
- Проблема охвата базы топонимов: проблема распознавания незарегистрированных именований.
- Проблема определения границы: из-за различных результатов, полученных с помощью географических названий и организаций, а также сложных правил невозможно использовать сопоставление правил Гарднера для определения границы.
- Решение: Алгоритм интеллектуальной сегментации представляет собой алгоритм, сочетающий сегментацию правил и статистическую сегментацию.Правила здесь включают правила фреймов между элементами адреса, а также правила ограничений между элементами адреса. Алгоритм статистической сегментации использует вероятность словообразования между словами для выявления незарегистрированных слов.
Проблема маркировки адресных признаков:
- Повторяющееся имя именованного объекта: существует несколько типов элементов адреса, и между именами и типами нет однозначной связи.
- Незарегистрированный тип имени объекта не определен: это вызвано тем, что имя объекта не существует в библиотеке адресов.
- Решение: Тип географического названия определяется двумя аспектами: структурой контекста и привычкой выражения. Эти два аспекта также объединяются с правилами и статистикой для определения типа адресных элементов.Здесь используется скрытая марковская модель (HMM).
совпадение вывода
-
Сопоставление вывода относится к процессу реализации вывода и местоположения на основе семантического понимания и вывода для определения пространственной взаимосвязи между элементами адреса. Рассуждение, определяемое с точки зрения искусственного интеллекта, относится к вынесению другого суждения на основе известного суждения. Из-за множества различных представлений одного и того же местоположения правильное сопоставление невозможно без обработки с точки зрения понимания естественного языка.
-
Основными компонентами китайского адреса являются региональные топонимы (область, функциональная зона, природная зона) и локальные точки.Описываемые географические объекты включают включенность, смежность, смежность, ориентацию и отношения расстояния. Рассуждение строит дерево решений на основе библиотеки адресов и выбирает соответствующие действия в соответствии с различными элементами адреса. В адресных описаниях часто встречаются избыточные описания, например, может существовать отношение эквивалентности между элементами адреса. Следовательно, процесс рассуждения включает в себя оценку и обработку различных отношений, поэтому действия рассуждения в основном включают поиск набора, подтверждение отношения, вычисление относительного положения и вычисление интерполяции. Целью поиска множества является определение того, есть ли у элемента адреса запись в базе данных адресов. Подтверждение связи предназначено для определения того, имеет ли текущий элемент адреса пространственное отношение или отношение эквивалентности с предыдущим элементом адреса. Когда адрес выражается с использованием исходной позиции, смещенную позицию необходимо вычислить на основе исходной позиции, а точность смещенной позиции определяется исходной точкой и точностью описания смещенной позиции. Когда описанная адресная точка не существует в адресной библиотеке, а адресная точка представлена номером дома, расчет интерполяции может использоваться для решения двух типов расчета местоположения адресной точки, один из которых - это номер дома с использованием метода дистанционного кодирования. , другой - Расчет нечеткой позиции указывает, что он определяется с использованием метода интерполяции.
-
Процесс рассуждения использует эвристическую стратегию, а хранение знаний (взаимоотношения элементов адреса) использует неявное хранение. Используйте неявный поиск графа, чтобы решить проблему. Чтобы уменьшить объем поиска, применяется стратегия обратного рассуждения. Ядром интеллектуального сопоставления является поиск оптимального решения в пространстве знаний на основе рассуждений о знаниях. База знаний представляет собой адресную базу. Конечным результатом процесса рассуждений о знаниях является путь от корневого узла к конечному узлу, и процесс рассуждений о знаниях использует стратегию поиска в глубину. Поскольку указатель от дочернего узла к родительскому узлу (идентификация родительского узла) записывается в адресной библиотеке, сложность поиска в глубину существенно снижается, необходимо только рекурсивно искать текущий дочерний узел как начальная точка и родительский узел в качестве конечной точки.Локальный путь, если путь существует, это означает, что передача от родительского узла к текущему узлу прошла успешно, вы можете продолжить глубокий поиск, если путь не существует, вам нужно выполнить обработку исключений.
-
Технология рассуждений заключается в моделировании поведения людей при адресации, поэтому процесс сопоставления адресов аналогичен отправке по почте. Успех матча определяется путем от начальной до конечной точки. Процесс сопоставления вывода:
- Шаг 1: Используйте стандартизированный результат разрешения адреса и соответствующую конечную цель (здание, номер дома, дорога и т. д.) в качестве входных условий для оценки достоверности адреса. Если адрес действителен, перейдите к шагу 2, в противном случае перейдите к шагу 9.
- Шаг 2: Определите, есть ли описание ориентации в адресном элементе. Если нет, перейдите к шагу 3, иначе перейдите к шагу 7.
- Шаг 3: Судя по типу адреса, если это адрес с обычным именем, перейдите к шагу 4; в противном случае перейдите к шагу 5.
- Шаг 4. На основе полнотекстового поиска для достижения соответствия и позиционирования перейдите к шагу 9.
- Шаг 5: Используйте конечный автомат, чтобы реализовать вывод отношения элементов, вычислить положение в пространстве и перейти к шагу 6.
- Шаг 6: Расчет позиционирования, перейдите к шагу 9.
- Шаг 7: Разделите адрес, сопоставьте ссылочный адрес детали без ориентации и перейдите к шагу 8.
- Шаг 8: Оцените местоположение цели по азимуту и расстоянию. Перейти к шагу 9.
- Шаг 9: Зарегистрируйтесь для сопоставления результатов.
Экспериментальные результаты и анализ
-
Для 1000 элементов случайно выбранных адресных данных домохозяйства результат эксперимента по сопоставлению адресов таков, что степень совпадения составляет 98,7%, а уровень точности - 93,5%. Для 100 элементов искусственно созданных адресных данных результат эксперимента по сопоставлению адресов заключается в том, что уровень совпадения составляет 98%, а уровень точности составляет 96%. В среднем каждое сопоставление адресов занимает около 0,2 с.
-
В результате анализа данных было установлено, что причина несоответствия адреса регистрации домохозяйства заключается в том, что географические названия, включенные в географический справочник, являются неполными. Для искусственно созданных адресов экспериментальные результаты показывают, что скорость сопоставления и степень точности высоки, что показывает, что китайский алгоритм сопоставления адресов, основанный на понимании естественного языка, предложенный в этой статье, может хорошо понимать пространственную семантику и может реализовывать искусственное построение с помощью различных выражений. Адреса могут сопоставляться правильно. Если библиотека адресов высокого качества и охватывает широкий спектр данных, это означает, что база знаний богата и может обрабатывать требования соответствия нескольких описаний адресов в одном месте. , Если охват библиотеки адресов недостаточен, скорость сопоставления низкая, точность низкая.
Ссылка в этой статье
Song Zihui, 2013. Китайский алгоритм сопоставления адресов для понимания естественного языка, Acta Remote Sensing, 17(4):788-801.
Ежедневный девиз: Будь проще, не предавайся фантазиям.
Попросите автора съесть острые полоски алипай