Анализ трех методов маркировки последовательностей для распознавания именованных объектов (NER)

задняя часть
Анализ трех методов маркировки последовательностей для распознавания именованных объектов (NER)

Мало знаний, большой вызов! Эта статья участвует в "Необходимые знания для программистов«Творческая деятельность

Кратко опишите аннотацию последовательности

Тегирование последовательностей является основной задачей НЛП и широко используется, например, сегментация слов, тегирование POS, распознавание именованных объектов (NER), извлечение ключевых слов и маркировка семантических ролей), заполнение слотов (заполнение слотов) и т. д., по существу, относятся к категория аннотации последовательности.

Кратко опишите распознавание именованных объектов

Распознавание именованных сущностей (NER), также известное как «распознавание имен собственных», относится к идентификации сущностей с определенным значением в тексте, в основном включая имена людей, места, учреждения, имена собственные и т. д.

Роль распознавания именованных объектов

Распознавание именованных сущностей является важным базовым инструментом в таких областях применения, как извлечение информации, системы ответов на вопросы, синтаксический анализ, машинный перевод и аннотация метаданных для Semantic Web, и он занимает важное место в процессе внедрения технологии обработки естественного языка. Вообще говоря, задача распознавания именованной сущности состоит в том, чтобы идентифицировать три категории (сущность, время и число) и семь подкатегорий (лицо, учреждение, место, время, дата, валюта и процент) в тексте, подлежащем обработке.

Состав процесса распознавания именованного объекта

Распознавание именованных объектов обычно состоит из двух частей:

  1. Распознавание границ объекта;
  2. Определите категорию объекта (лицо, место, учреждение или другое).

Кратко опишите типы меток

При выполнении именованного распознавания объекта обычно необходимо маркировать каждое слово, китайский - это одно слово, английский это слово, а пробелы разделены. Типы меток для выносов отображаются в следующей таблице:

тип инструкция
B Начало, представляющее начало фрагмента сущности
I Промежуточный, представляющий середину фрагмента сущности
M Середина, представляющая середину фрагмента объекта.
E Конец, представляющий конец фрагмента объекта
S Одиночный, представляющий фрагмент объекта как одно слово
O Другой, представительный характер не является какой-либо сущностью

Кратко опишите три метода маркировки последовательностей.

Три распространенных метода аннотации последовательности для распознавания объектов:

  1. БИО: Определите начальную, среднюю и несущественную части сущности.
  2. BMES: увеличьте маркировку ситуации единого объекта S
  3. BIOSE: добавьте флаг конца объекта E

BIO-метод аннотации трехзначной последовательности (B-начало, I-внутри, O-снаружи)

  • B-X представляет собой начало объекта X
  • IX представляет собой середину или конец объекта X.
  • O означает не любого типа

Пример:

 我 O
 是 O
 李 B-PER
 果 I-PER
 冻 I-PER
 , O
 我 O
 爱 O
 中 B-ORG
 国 I-ORG
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 I-LOC
 。 O

BMES-метод аннотации четырехзначной последовательности (B-начало, M-середина, E-конец, S-один)

  • B представляет префиксное значение слова
  • M представляет среднюю позицию слова
  • E указывает на конец слова
  • S для одного слова

Пример:

 我 S
 是 S
 四 B
 川 M
 人 E

BIOES-метод аннотации четырехзначной последовательности (B-начало, I-внутри, O-снаружи, E-конец, S-один)

  • Б означает начало
  • я имею в виду внутренний
  • O для несуществующего
  • E обозначает хвост сущности
  • S означает, что слово change само по себе является сущностью

Пример:

 我 O
 是 O
 李 B-PER
 果 I-PER
 冻 E-PER
 , O
 我 O
 爱 O
 中 B-LOC
 国 E-LOC
 , O
 我 O
 来 O
 自 O
 四 B-LOC
 川 E-LOC
 。 O

Суммировать

По сути, кратко описаны три метода маркировки для распознавания объектов.Из вышеизложенного мы видим, что различные методы маркировки для маркировки последовательностей похожи.