Интерпретация документа: ACL2021 NER | Распознавание именованных объектов BART на основе шаблона

искусственный интеллект

Резюме: Этот документ представляет собой предварительную интерпретацию работы распознавания именованных объектов BART на основе шаблона NER ACL2021.

Эта статья опубликована в сообществе HUAWEI CLOUD.«ACL2021 NER | Распознавание именованных объектов BART на основе шаблона», Автор: JuTzungKuei.

Документ: Цуй Леян, Ву Ю, Лю Цзянь, Ян Сен, ЧжанЮэ. Распознавание именованных объектов на основе шаблона с использованием BART [A]. Выводы Ассоциации компьютерной лингвистики: ACL-IJCNLP 2021 [C]. Интернет: Ассоциация компьютерной лингвистики, 2021, 1835–1845 гг.

Ссылка на сайт:ACL anthology.org/2021.найти в…

Код:GitHub.com/Нил Калибр/Распродажа…

1. Аннотация

  • Небольшая выборка NER: больше данных об исходном домене, меньше данных о целевом домене

  • Существующие методы: метрики на основе подобия

Недостаток: нельзя использовать знания о параметрах модели для передачи.

  • Предложите подход на основе шаблонов

NER рассматривается как проблема ранжирования языковых моделей, фреймворк seq2seq.

Исходное предложение и шаблон берутся как исходная последовательность и шаблонная последовательность, соответственно, заполняются диапазоном сущностей-кандидатов.

Вывод: классифицируйте каждый диапазон-кандидат в соответствии с соответствующей оценкой шаблона.

  • набор данных

CoNLL03 Богатые ресурсы

MIT Movie, MITRestaurant, низкий ресурс ATIS

2. Введение

  • NER: основная задача НЛП, определить диапазон упоминаний и классифицировать

  • Нейронная модель NER: требуется много размеченных данных, много полей новостей, но мало других полей.

Идеальная ситуация: передача знаний от богатых ресурсов к низким ресурсам

Реальная ситуация: разные типы сущностей в разных доменах

Обучайте и тестируйте: слой softmax и слой crf нуждаются в согласованных метках

Новый рубеж: выходной слой необходимо перенастроить и переобучить

  • В последнее время в NER с несколькими выстрелами используется метрика расстояния: обучение функции метрики сходства.

Отлично: уменьшенная адаптация домена

Недостатки: (1) эвристический поиск ближайшего соседа для поиска наилучших гиперпараметров, сетевые параметры не обновляются и не могут улучшить нейронное представление междоменных экземпляров; (2) полагаться на текстовые шаблоны, похожие в исходном и целевом доменах.

  • Предложите подход на основе шаблонов

Использование небольшого обучающего потенциала генеративных PLM для маркировки последовательностей

BART точно настраивается с помощью предопределенных шаблонов, заполненных объектами выноски.

Шаблон сущности: — это сущность

Шаблон, не являющийся сущностью: не является именованной сущностью.

  • Преимущества метода:

Эффективное использование помеченных экземпляров для тонкой настройки в новых доменах

Более надежны, чем методы, основанные на расстоянии, даже при больших пробелах в стиле письма между исходным и целевым доменами.

Любой класс NER можно применять без изменения выходного слоя, непрерывное обучение

  • Первый, кто решил проблему маркировки последовательностей небольших выборок с помощью генеративного PLM.

  • Быстрое обучение

3. Метод

3.1 Создайте шаблон

  • Думайте о задаче NER как о проблеме ранжирования LM в рамках структуры seq2seq.

  • Набор меток entity_type: \mathbf{L}=\{l_1,...,l_{|L|}\}L={_l_1​,...,_l_∣_L_∣​}, то есть {LOC, PER, ORG, …}

  • Натуральные слова: \mathbf{Y}=\{y_1,...,y_{|L|}\}Y={_y_1​,...,_y_∣_L_∣​}, т. е. {местоположение, человек, организация, …}

  • Шаблон объекта: \mathbf{T}^{+}_{y_k}=\text{является объектом местоположения.}T_yk_​+​= – объект местоположения.

  • Шаблон не-сущности: \mathbf{T}^{-}=\text{не является именованной сущностью.}T−= не является именованным объектом.

  • Набор шаблонов: \mathbf{T}=[\mathbf{T}^{+}_{y_1},...,\mathbf{T}^{+}_{y_{|L|}},\mathbf{ Т}^{-}]T=[T_y_1​+​,...,T_y_∣_L_∣​+​,T−]

3.2 Рассуждение

  • Перечислите все промежутки, ограничьте количество n-грамм от 1 до 8, и каждое предложение будет иметь 8n шаблонов

  • Оценка шаблона: \mathbf{T}_{{y_k},x_{i:j}}=\{t_1,...,t_m\}Tyk​,xi:j​​={t1​,..., тм}

  • x_{i:j}xi:_j_​Объект с наивысшим баллом

  • Если есть вложенные объекты, выберите тот, у которого больше баллов

3.3 Обучение

  • Сущности Gold Label используются для создания шаблонов

объект x_{i:j}xi:_j_​Тип y_k_yk_​, а его шаблон: \mathbf{T}^{+}_{y_k,x_{i:j}}T_ык_,xi:_j_​+​

не-сущность x_{i:j}xi:_j_​, шаблон которого: \mathbf{T}^{-}_{x_{i:j}}Txi:_j_​−​

  • Соберите тренировочный набор:

Положительный пример: (\mathbf{X}, \mathbf{T}^+)(X,T+)

Отрицательный пример: (\mathbf{X}, \mathbf{T}^-)(X,T−), выборка случайная, число в 1,5 раза больше числа положительных примеров

  • Кодировка: \mathbf{h}^{enc}=\text{ENCODER}(x_{1:n})henc=КОДЕР(_x_1:_n_​)

  • Расшифровка: \mathbf{h}_c^{dec}=\text{ДЕКОДЕР}(h^{enc}, t_{1:c-1})h_cdec_=ДЕКОДЕР(henc,_t_1:_c_−1​)

  • Условная вероятность слова t_c_tc_​: p(t_c|t_{1:c-1},\mathbf{X})=\text{SOFTMAX}(\mathbf{h}_c^{dec}\mathbf{W}_{ лм}+\mathbf{b}_{лм})p(_tc_​∣_t_1:_c_−1​,X)=SOFTMAX(h_cdec_​W_lm_+b_lm_​)

\mathbf{W}_{lm} \in\mathbb{R}^{d_h\times |V|}W_lm_​∈R_dh_​×∣_V_∣

  • перекрестная потеря энтропии

4. Результаты

  • Результаты тестирования для разных типов шаблонов

Выберите первые три шаблона и обучите три модели соответственно.

  • Результаты экспериментов

Последняя строка — слияние трех моделей, голосование на уровне сущностей.

Вне псевдонима: если вы хотите узнать больше о технологии искусственного интеллекта, добро пожаловать в раздел искусственного интеллекта HUAWEI CLOUD.Шесть практических занятий, включая программирование ИИ на PythonБесплатное обучение для всех.

Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~