Резюме: Этот документ представляет собой предварительную интерпретацию работы распознавания именованных объектов BART на основе шаблона NER ACL2021.
Эта статья опубликована в сообществе HUAWEI CLOUD.«ACL2021 NER | Распознавание именованных объектов BART на основе шаблона», Автор: JuTzungKuei.
Документ: Цуй Леян, Ву Ю, Лю Цзянь, Ян Сен, ЧжанЮэ. Распознавание именованных объектов на основе шаблона с использованием BART [A]. Выводы Ассоциации компьютерной лингвистики: ACL-IJCNLP 2021 [C]. Интернет: Ассоциация компьютерной лингвистики, 2021, 1835–1845 гг.
Ссылка на сайт:ACL anthology.org/2021.найти в…
Код:GitHub.com/Нил Калибр/Распродажа…
1. Аннотация
-
Небольшая выборка NER: больше данных об исходном домене, меньше данных о целевом домене
-
Существующие методы: метрики на основе подобия
Недостаток: нельзя использовать знания о параметрах модели для передачи.
- Предложите подход на основе шаблонов
NER рассматривается как проблема ранжирования языковых моделей, фреймворк seq2seq.
Исходное предложение и шаблон берутся как исходная последовательность и шаблонная последовательность, соответственно, заполняются диапазоном сущностей-кандидатов.
Вывод: классифицируйте каждый диапазон-кандидат в соответствии с соответствующей оценкой шаблона.
- набор данных
CoNLL03 Богатые ресурсы
MIT Movie, MITRestaurant, низкий ресурс ATIS
2. Введение
-
NER: основная задача НЛП, определить диапазон упоминаний и классифицировать
-
Нейронная модель NER: требуется много размеченных данных, много полей новостей, но мало других полей.
Идеальная ситуация: передача знаний от богатых ресурсов к низким ресурсам
Реальная ситуация: разные типы сущностей в разных доменах
Обучайте и тестируйте: слой softmax и слой crf нуждаются в согласованных метках
Новый рубеж: выходной слой необходимо перенастроить и переобучить
- В последнее время в NER с несколькими выстрелами используется метрика расстояния: обучение функции метрики сходства.
Отлично: уменьшенная адаптация домена
Недостатки: (1) эвристический поиск ближайшего соседа для поиска наилучших гиперпараметров, сетевые параметры не обновляются и не могут улучшить нейронное представление междоменных экземпляров; (2) полагаться на текстовые шаблоны, похожие в исходном и целевом доменах.
- Предложите подход на основе шаблонов
Использование небольшого обучающего потенциала генеративных PLM для маркировки последовательностей
BART точно настраивается с помощью предопределенных шаблонов, заполненных объектами выноски.
Шаблон сущности:
Шаблон, не являющийся сущностью:
- Преимущества метода:
Эффективное использование помеченных экземпляров для тонкой настройки в новых доменах
Более надежны, чем методы, основанные на расстоянии, даже при больших пробелах в стиле письма между исходным и целевым доменами.
Любой класс NER можно применять без изменения выходного слоя, непрерывное обучение
-
Первый, кто решил проблему маркировки последовательностей небольших выборок с помощью генеративного PLM.
-
Быстрое обучение
3. Метод
3.1 Создайте шаблон
-
Думайте о задаче NER как о проблеме ранжирования LM в рамках структуры seq2seq.
-
Набор меток entity_type: \mathbf{L}=\{l_1,...,l_{|L|}\}L={_l_1,...,_l_∣_L_∣}, то есть {LOC, PER, ORG, …}
-
Натуральные слова: \mathbf{Y}=\{y_1,...,y_{|L|}\}Y={_y_1,...,_y_∣_L_∣}, т. е. {местоположение, человек, организация, …}
-
Шаблон объекта: \mathbf{T}^{+}_{y_k}=\text{
является объектом местоположения.}T_yk_+= – объект местоположения. -
Шаблон не-сущности: \mathbf{T}^{-}=\text{
не является именованной сущностью.}T−= не является именованным объектом. -
Набор шаблонов: \mathbf{T}=[\mathbf{T}^{+}_{y_1},...,\mathbf{T}^{+}_{y_{|L|}},\mathbf{ Т}^{-}]T=[T_y_1+,...,T_y_∣_L_∣+,T−]
3.2 Рассуждение
-
Перечислите все промежутки, ограничьте количество n-грамм от 1 до 8, и каждое предложение будет иметь 8n шаблонов
-
Оценка шаблона: \mathbf{T}_{{y_k},x_{i:j}}=\{t_1,...,t_m\}Tyk,xi:j={t1,..., тм}
-
x_{i:j}xi:_j_Объект с наивысшим баллом
-
Если есть вложенные объекты, выберите тот, у которого больше баллов
3.3 Обучение
- Сущности Gold Label используются для создания шаблонов
объект x_{i:j}xi:_j_Тип y_k_yk_, а его шаблон: \mathbf{T}^{+}_{y_k,x_{i:j}}T_ык_,xi:_j_+
не-сущность x_{i:j}xi:_j_, шаблон которого: \mathbf{T}^{-}_{x_{i:j}}Txi:_j_−
- Соберите тренировочный набор:
Положительный пример: (\mathbf{X}, \mathbf{T}^+)(X,T+)
Отрицательный пример: (\mathbf{X}, \mathbf{T}^-)(X,T−), выборка случайная, число в 1,5 раза больше числа положительных примеров
-
Кодировка: \mathbf{h}^{enc}=\text{ENCODER}(x_{1:n})henc=КОДЕР(_x_1:_n_)
-
Расшифровка: \mathbf{h}_c^{dec}=\text{ДЕКОДЕР}(h^{enc}, t_{1:c-1})h_cdec_=ДЕКОДЕР(henc,_t_1:_c_−1)
-
Условная вероятность слова t_c_tc_: p(t_c|t_{1:c-1},\mathbf{X})=\text{SOFTMAX}(\mathbf{h}_c^{dec}\mathbf{W}_{ лм}+\mathbf{b}_{лм})p(_tc_∣_t_1:_c_−1,X)=SOFTMAX(h_cdec_W_lm_+b_lm_)
\mathbf{W}_{lm} \in\mathbb{R}^{d_h\times |V|}W_lm_∈R_dh_×∣_V_∣
- перекрестная потеря энтропии
4. Результаты
- Результаты тестирования для разных типов шаблонов
Выберите первые три шаблона и обучите три модели соответственно.
- Результаты экспериментов
Последняя строка — слияние трех моделей, голосование на уровне сущностей.
Вне псевдонима: если вы хотите узнать больше о технологии искусственного интеллекта, добро пожаловать в раздел искусственного интеллекта HUAWEI CLOUD.Шесть практических занятий, включая программирование ИИ на PythonБесплатное обучение для всех.
Нажмите «Подписаться», чтобы впервые узнать о новых технологиях HUAWEI CLOUD~