Мало знаний, большой вызов! Эта статья участвует в "Необходимые знания для программистов«Творческая деятельность
Кратко опишите аннотацию последовательности
Тегирование последовательностей является основной задачей НЛП и широко используется, например, сегментация слов, тегирование POS, распознавание именованных объектов (NER), извлечение ключевых слов и маркировка семантических ролей), заполнение слотов (заполнение слотов) и т. д., по существу, относятся к категория аннотации последовательности.
Кратко опишите распознавание именованных объектов
Распознавание именованных сущностей (NER), также известное как «распознавание имен собственных», относится к идентификации сущностей с определенным значением в тексте, в основном включая имена людей, места, учреждения, имена собственные и т. д.
Роль распознавания именованных объектов
Распознавание именованных сущностей является важным базовым инструментом в таких областях применения, как извлечение информации, системы ответов на вопросы, синтаксический анализ, машинный перевод и аннотация метаданных для Semantic Web, и он занимает важное место в процессе внедрения технологии обработки естественного языка. Вообще говоря, задача распознавания именованной сущности состоит в том, чтобы идентифицировать три категории (сущность, время и число) и семь подкатегорий (лицо, учреждение, место, время, дата, валюта и процент) в тексте, подлежащем обработке.
Состав процесса распознавания именованного объекта
Распознавание именованных объектов обычно состоит из двух частей:
- Распознавание границ объекта;
- Определите категорию объекта (лицо, место, учреждение или другое).
Кратко опишите типы меток
При выполнении именованного распознавания объекта обычно необходимо маркировать каждое слово, китайский - это одно слово, английский это слово, а пробелы разделены. Типы меток для выносов отображаются в следующей таблице:
тип | инструкция |
---|---|
B | Начало, представляющее начало фрагмента сущности |
I | Промежуточный, представляющий середину фрагмента сущности |
M | Середина, представляющая середину фрагмента объекта. |
E | Конец, представляющий конец фрагмента объекта |
S | Одиночный, представляющий фрагмент объекта как одно слово |
O | Другой, представительный характер не является какой-либо сущностью |
Кратко опишите три метода маркировки последовательностей.
Три распространенных метода аннотации последовательности для распознавания объектов:
- БИО: Определите начальную, среднюю и несущественную части сущности.
- BMES: увеличьте маркировку ситуации единого объекта S
- BIOSE: добавьте флаг конца объекта E
BIO-метод аннотации трехзначной последовательности (B-начало, I-внутри, O-снаружи)
- B-X представляет собой начало объекта X
- IX представляет собой середину или конец объекта X.
- O означает не любого типа
Пример:
我 O
是 O
李 B-PER
果 I-PER
冻 I-PER
, O
我 O
爱 O
中 B-ORG
国 I-ORG
, O
我 O
来 O
自 O
四 B-LOC
川 I-LOC
。 O
BMES-метод аннотации четырехзначной последовательности (B-начало, M-середина, E-конец, S-один)
- B представляет префиксное значение слова
- M представляет среднюю позицию слова
- E указывает на конец слова
- S для одного слова
Пример:
我 S
是 S
四 B
川 M
人 E
BIOES-метод аннотации четырехзначной последовательности (B-начало, I-внутри, O-снаружи, E-конец, S-один)
- Б означает начало
- я имею в виду внутренний
- O для несуществующего
- E обозначает хвост сущности
- S означает, что слово change само по себе является сущностью
Пример:
我 O
是 O
李 B-PER
果 I-PER
冻 E-PER
, O
我 O
爱 O
中 B-LOC
国 E-LOC
, O
我 O
来 O
自 O
四 B-LOC
川 E-LOC
。 O
Суммировать
По сути, кратко описаны три метода маркировки для распознавания объектов.Из вышеизложенного мы видим, что различные методы маркировки для маркировки последовательностей похожи.