Обучение на малых примерах и его применение на сцене Meituan

искусственный интеллект алгоритм задняя часть
Обучение на малых примерах и его применение на сцене Meituan

Различные предприятия Meituan имеют богатые сценарии НЛП, и построение моделей в этих сценариях требует много ресурсов аннотаций, а стоимость высока. Небольшое обучение предназначено для обучения более совершенных моделей, когда ресурсы данных ограничены. В этой статье представлены некоторые существующие методы из направлений активного обучения, улучшения данных, частично контролируемого обучения, переноса домена, ансамблевого обучения и самообучения, а также проводятся эксперименты на сцене Meituan, и эффект также был улучшен в некоторой степени. Я надеюсь, что это может быть полезно или поучительно для студентов, которые занимаются смежными исследованиями.

1. Предпосылки

Различные предприятия Meituan имеют богатые сценарии НЛП, и построение моделей в этих сценариях требует много ресурсов аннотаций, а стоимость высока. Обучение на малых выборках направлено на обучение лучшей модели в случае ограниченных ресурсов данных.В основном существуют следующие два критерия оценки:

  • Улучшить производительность алгоритма: В случае определенных ресурсов аннотаций использование обучения на малых выборках может максимально улучшить соответствующие показатели.
  • Сохранить данные аннотации: В случае, если ожидается, что эффект алгоритма достигнет определенного уровня, предполагается максимально сократить размеченные данные.

В случае небольшого количества образцов в области НЛП в основном существуют следующие три сценария, и обучение на малых выборках принимает различные меры для решения этих проблем:

  1. Недостаточно места для выборки (Рисунок 1 слева): Когда количество выборок невелико, распределение скудное.Увеличение данных направлено на то, чтобы лучше использовать взаимосвязь между выборками/встраиванием и улучшить эффективность обобщения модели.
  2. Образцы распределены в локальном пространстве (на рисунке 1): часто в определенном поле имеется лишь небольшое количество помеченных данных, но много неразмеченных данных. В соответствии с различными способами использования немаркированных данных мы разделяем их на два типа.Первый — это полууправляемое обучение, которое заключается в одновременном изучении меченых и немаркированных образцов в процессе тонкой настройки модели с использованием предсказания модели немаркированных данных. Непротиворечивость; второе — ансамблевое обучение + самообучение, подчеркивая, что результаты прогнозирования неразмеченных данных из нескольких моделей интегрируются в обучение как псевдоразмеченные данные.
  3. Различия в распределении выборки между разными полями (рис. 1 справа): После полного изучения аннотационной информации в определенной области ее нельзя напрямую использовать в других областях из-за различий в пространстве образцов.Переносное обучение направлено на быстрое изучение знаний в других областях после получения достаточных знаний в одной области.

图1 小样本学习三种应用场景

В дополнение к трем сценариям, упомянутым выше, еще один заключается в том, как выбрать более целевые образцы для ручной маркировки (активное обучение) в рамках ограниченной стоимости маркировки. Таким образом, мы разделяем обучение с несколькими выстрелами на следующие категории:

  • увеличение данных: Улучшение данных можно разделить на улучшение выборки и улучшение встраивания. Расширение выборки ранее использовалось для увеличения изображений в компьютерном зрении.Некоторые простые операции с изображениями, такие как поворот изображения или преобразование его в оттенки серого, не меняют его семантику.Существование семантически-инвариантных преобразований делает увеличение исследованием в области компьютерного зрения. важный инструмент в . Улучшение образца в области НЛП также пытается расширить текстовые данные без изменения темы предложения.Основные методы включают простую замену текста, предварительное обучение языковых моделей для создания похожих предложений и т. д. Полученные расширенные данные можно изучить из от простого к сложному. Улучшение встраивания работает на уровне встраивания модели, что может повысить надежность модели за счет возмущения/интерполяции встраивания.
  • полуконтролируемое обучение: контролируемое обучение часто требует большого объема размеченных данных, а стоимость размеченных данных относительно высока, поэтому большое значение имеет то, как использовать большой объем неразмеченных данных для улучшения эффекта контролируемого обучения. В последние годы полууправляемое глубокое обучение достигло большого прогресса, особенно в области компьютерного зрения; связанные исследования в основном сосредоточены на том, как создавать сигналы без учителя для немаркированных данных и совместно моделировать с обучением с учителем.Текущие основные методы основаны на Регуляризация согласованности для немаркированных данных создает функцию потерь.
  • Интегрированное обучение + самообучение: цель обучения с учителем в машинном обучении состоит в том, чтобы изучить стабильную модель, которая хорошо работает во всех аспектах, но на практике иногда можно получить только несколько предпочтительных моделей (модели со слабым учителем, которые хорошо работают в некоторых аспектах). Лучше). Обучение ансамблю заключается в объединении нескольких моделей со слабым наблюдением здесь, чтобы получить лучшую и более полную модель с сильным наблюдением.Основная идея обучения ансамбля заключается в том, что даже если слабый классификатор получает неправильный прогноз, другие слабые классификаторы также могут исправить ошибка. Исправьте обратно. Простое использование нескольких моделей для интеграции во время прогнозирования увеличит онлайн-нагрузку.Поэтому мы используем несколько моделей для прогнозирования большого количества немаркированных данных, выбираем данные с высокой комбинированной достоверностью и объединяем их в обучающий набор для обучения и, наконец, объединяем несколько моделей. , объединены в единую модель. Эта часть также является типом обучения с полуучителем, но основное отличие от упомянутого выше обучения с полууправлением заключается в том, что методы, упомянутые в последнем, подчеркивают согласованность прогнозирования неразмеченных данных с использованием модели на этапе Finetune, и это часть Упор делается на интеграцию результатов прогнозирования нескольких моделей, поэтому эта часть указана отдельно.
  • Небольшое обучение/миграция домена: люди могут быстро усваивать новые знания после того, как у них есть определенный запас знаний.Исследователи надеются, что модели машинного обучения также могут обладать этой способностью.После того, как модель извлекла много информации из большого объема данных определенной категории, ее можно используется для новых категорий в соответствии с новым. Получено небольшое количество размеченных образцов для получения нового классификатора, который может идентифицировать образцы этого класса в новом классе.
  • активное изучение: Активное обучение — это итеративный процесс машинного обучения и ручного участия, и подходящие наборы кандидатов отбираются для ручной аннотации с помощью методов машинного обучения. Общая идея такова: получить образцы данных, которые более «сложно» классифицировать с помощью машинного обучения, позволить людям подтвердить и снова просмотреть их, а затем повторно обучить размеченные вручную данные, используя модель обучения с учителем, чтобы постепенно улучшить эффект. модели.

图2 小样本学习相关工作

2 Обзор методов

Предварительно обученная языковая модельBERT, достигает очень хороших результатов во многих задачах НЛП. БЕРТ основан наTransformerМодель глубокого двунаправленного языкового представления, основанная на структуре Transformer, используется для построения многоуровневой двунаправленной сети Encoder. Мы берем BERT в качестве базовой модели и настраиваем предварительно обученную модель на конкретных примерах задач.

2.1 Увеличение данных

Увеличение данных можно разделить на увеличение данных и увеличение встраивания.Увеличение данных преобразует выражение текста, сохраняя при этом семантику неизменной, например, обратный перевод, замену синонимов, случайное удаление и т. д. Расширение модели в основном включает в себя смешивание и состязательное обучение, смешивание. ряд вариантов в области НЛП, включая SeqMix, Manifold Mixup и т. д. Увеличение данных повышает надежность модели, что заставляет модель уделять больше внимания семантической информации текста и менее чувствительна к локальному шуму текста. В сценариях с несколькими кадрами методы улучшения текста могут эффективно повысить надежность модели и ее способность к обобщению.

2.1.1 Улучшение образца

2.1.1.1 EDA с простым дополнением данных

EDA1Замена некоторых слов/фраз в предложении через базу знаний в основном включает в себя следующие четыре операции:

  • Замена синонимов (SR): Не учитывая стоп-слова, случайным образом извлеките n слов в предложении, а затем случайным образом извлеките синонимы из словаря тезауруса и замените их.
  • Случайная вставка (RI): Случайным образом найти в предложении слово, не принадлежащее множеству стоп-слов, найти его случайный синоним и вставить синоним в случайное место в предложении. Повторить n раз.
  • Случайный обмен (RS): Случайным образом выберите два слова в предложении и поменяйте их местами. Повторить n раз.
  • Случайное удаление (RD): Случайным образом удалить каждое слово в предложении с вероятностью p.
2.1.1.2 Обратный перевод

Обратный перевод — это метод улучшения данных, часто используемый НЛП в машинном переводе, суть которого заключается в том, чтобы быстро сгенерировать некоторые результаты перевода для увеличения данных. Обратный перевод переводит исходные данные на другие языки, а затем обратно на исходный язык.Из-за различий в логическом порядке языков методы обратного перевода часто могут получать новые данные, которые сильно отличаются от исходных данных.

2.1.1.3 Предварительно обученная языковая модель
  • Улучшение текста на основе контекстной информации2, используя обученную языковую модель, рандомизируйте слово или слово в тексте маски, затем введите текст в языковую модель и выберите Верх, предсказанный языковой моделью.kkслова, чтобы заменить слова, которые были удалены из исходного текста, чтобы сформироватьkkновый текст.
  • Лямбда улучшения текста на основе модели генерации языка3, Lambda основана на предварительно обученной языковой модели GPT, которая позволяет модели фиксировать структуру языка, чтобы она могла генерировать связные предложения. Модель точно настроена на небольшом наборе данных различных задач, и новые предложения генерируются с использованием точно настроенной модели.

2.1.2 Расширенное использование образцов

Вышеупомянутые методы генерируют пакет текстов с расширенными данными, причем расширенные тексты имеют большой объем и шум; исходные аннотированные данные содержат небольшой объем данных и не содержат шума. НААКЛ20214Работа в этой статье предлагает подход к обучению по учебной программе, чтобы лучше изучить оба образца.

图3 增强数据三种学习方式

Standard Data Augmentation

Исходные данные и дополненные данные напрямую объединяются для обучения.

Curriculum Data Augmentation

В ходе обучения вы сначала изучите простые размеченные данные, а затем, когда у вас появятся определенные знания, изучите расширенные данные с шумом.Есть два способа их использования:

  1. Two Stage: сначала тренируйтесь на исходных данных, подождите, пока набор для разработки сойдется, а затем тренируйтесь на исходных и дополненных данных вместе.
  2. Gradual: сначала тренируйтесь на исходных данных, а затем постепенно линейно добавляйте расширенные данные, контролируя переменную возмущения.т\tau, то есть в началет=0\tau=0, а затем линейно увеличивать каждый раз на 0,1, пока не увеличится до 0,5.

2.1.3 Улучшение внедрения

2.1.3.1 Mixup

Естественный язык обладает систематической композиционностью и может понимать правильно реструктурированные предложения. Рассмотрим следующий пример: два слева являются исходными текстами, и, заменив/перекомбинировав в них некоторые слова, можно сгенерировать понятные образцы справа.5.

图4 自然语言重组变换样例

Mixup6,7Предлагается более общая модель, основанная на векторном дополнении, для случайной выборки двух выборок из обучающих данных для построения смешанных выборок и смешанных меток в качестве новых дополненных данных. в(xi,yi)(x_i,y_i)и(xj,yj)(x_j, y_j)это оригинальный образец,(x^,y^)(\hat{x}, \hat{y})Новые образцы созданы для рекомбинации. когдаλ\lambdaЗначение ограничено {0, 1}, что приводит к комбинации, показанной на рис. 4.

x^=λxi+(1λ)xj,y^=λyi+(1λ)yj,\begin{aligned} \hat{x} &= \lambda x_i + (1 - \lambda) x_j, \\ \hat{y} &= \lambda y_i + (1 - \lambda) y_j, \end{aligned}

В экспериментеλ\lambdaЗначение удовлетворяет бета-распределению.

λBeta(альфа,альфа)\lambda \sim \text{Beta}(\alpha, \alpha)

Интуитивно это требует, чтобы, когда входные данные модели представляют собой линейную комбинацию двух других входных данных, выходные данные также были линейной комбинацией выходных данных, полученных после того, как два данных вводятся в модель по отдельности. можно рассматривать как метод регуляризации. Несколько вариантов Mixup, SeqMix и Manifold Mixup описаны ниже.

a. SeqMix

SeqMix8Оцените сложность предложений, сгенерированных Mixup, используйте Дискриминатор, чтобы оценить сложность сгенерированных предложений, и выберите только предложения с более низкой степенью сложности, чтобы уменьшить влияние шумных предложений. Также замените подпоследовательность вместо целых предложений для более ориентированных на слова задач, таких как распознавание именованных объектов.

图5 SeqMix的几种变体

  • Рисунок 5(a) Самый оригинальный Mixup, смешать всю последовательность, чтобы создать новую последовательность.
  • Рисунок 5(b) Перемешивание подпоследовательностей, перепутайте допустимые подпоследовательности и замените исходные подпоследовательности соответственно, чтобы сгенерировать две новые последовательности.
  • Рисунок 5(c) Подпоследовательность, ограниченная меткой Смешивание, смешивание только подпоследовательностей одного и того же типа метки, соответственно замена исходной подпоследовательности и создание двух новых последовательностей.

b. Manifold Mixup

Смешение коллекторов9Обобщите приведенную выше операцию Mixup на объекты; объекты имеют семантическую информацию более высокого порядка, и интерполяция по их измерениям может дать более значимые выборки. В BERT-подобной модели количество слоев выбирается случайным образом.kk, Смешайте представление объекта этого слоя, и конкретные операции будут следующими:

  • случайно выбрать сетьkkслоев (включая входной слой).
  • Передайте в сеть два пакета данных, распространяйте их вперед до первогоkkслой, чтобы получить представление скрытых объектов(gk(x),y)(g_k(x), y)и(gk(x'),y')(g_k(x'), y').
  • Смешайте его, чтобы создать новый образец(g~k,y~)=(Mixupλ(gk(x),gk(x')),(Mixupλ(y,y'))(\tilde{g}_k, \tilde{y}) = (\text{Mixup}_{\lambda}(g_k(x), g_k(x')), (\text{Mixup}_{\lambda}(y, y'))
  • Продолжайте прямое распространение, чтобы получить результат.
  • Рассчитайте значение потерь и градиент.
2.1.3.2 Противоборствующая подготовка

Состязательная подготовка (AT)10Добавляя небольшие возмущения к входным образцам, чтобы значительно улучшить потери модели, состязательное обучение заключается в обучении модели, которая может эффективно идентифицировать исходные образцы и состязательные образцы. Если модель остается гладкой по отношению к шуму, то вся сеть может показать хорошую согласованность. Когда к классификатору применяется состязательное обучение, функция потерь, соответствующая состязательному обучению, имеет вид (к исходной функции потерь добавляется дополнительный элемент):

log(p(yx+radv);θ);гдеradv=argminr,rϵlogp(yx+r;θ~)-log(p(y | x+r_{adv}); \theta); \text{where } r_{adv} = \arg\min_{r, ||r|| \le \epsilon} \log p(y | x+r; \tilde{\theta})

вxxвходная последовательность,θ\thetaпараметры модели,rr– возмущение на входе,θ~\tilde{\theta}Это означает, что текущие параметры модели задаются как константы, а это означает, что алгоритм обратного распространения не будет обновлять текущие параметры модели при построении состязательных примеров. вradvr_{adv}рассчитывается как:

radv=ϵgg2гдеg=xlogp(yx;θ~)r_{adv} = \epsilon \frac{g}{||g||_2} \text{ where } g=\nabla_x \log p(y|x; \tilde{\theta})
2.1.3.3 Сравнительное обучение R-Drop

Dropout — это распространенный метод регуляризации для моделей глубокого обучения, Regularized Dropout (R-Drop).11Отбросьте одно и то же предложение дважды и заставьте выходные вероятности различных подмоделей, сгенерированных отсевом, быть согласованными. В частности, для каждой обучающей выборки R-Drop минимизирует расхождение KL между выходными вероятностями подмоделей, сгенерированных разными отсевами.

图6 R-Drop模型图

Левая панель на рис. 6 представляет каждую входную выборку.(x,y)(x,y)Он пройдет через модель дважды, чтобы получить два распределения вероятностей.Правый рисунок показывает, что из-за случайности самого Dropout две подмодели могут быть получены путем повторения одной и той же выборки дважды.

Данные обученияD={(xi,yi)}i=1nD = \{(x_i, y_i)\}_{i=1}^n, модельPw(yx)P^w(y|x), кросс-энтропийная потеря обучающих данных:

LCE=1ni=1nlogPw(yixi)L_{CE} = \frac{1}{n}\sum_{i=1}^n-\log P^w(y_i|x_i)

Две подмодели можно получить с помощью разных Dropout.P1w(yx)P_1^w(y|x)иP2w(yx)P_2^w(y|x), R-Drop минимизирует двунаправленное KL-расхождение выходных вероятностей двух подмоделей:

LKLi=12(DKL(P1w(yixi)P2w(yixi))+DKL(P2w(yixi)P1w(yixi)))L_{KL}^i = \frac{1}{2}(D_{KL}(P^w_1(y_i|x_i)||P^w_2(y_i|x_i)) + D_{KL}(P^w_2(y_i|x_i)||P^w_1(y_i|x_i)))

для обучающих данных(xi,yi)(x_i, y_i), окончательная функция потерь:

Li=LCEi+альфаLKLi=logP1w(yixi)logP2w(yixi)+альфа2(DKL(P1w(yixi)P2w(yixi))+DKL(P2w(yixi)P1w(yixi)))L^i = L_{CE}^i + \alpha L_{KL}^i = -\log P_1^w(y_i|x_i) -\log P_2^w(y_i|x_i) + \frac{\alpha}{2}(D_{KL}(P^w_1(y_i|x_i)||P^w_2(y_i|x_i)) + D_{KL}(P^w_2(y_i|x_i)||P^w_1(y_i|x_i)))

2.2 Полуконтролируемое обучение

В реальном бизнесе существует большое количество неразмеченных данных, и для их маркировки требуется много рабочей силы. Основная цель обучения с полуучителем — обучить модель с сильными способностями к обобщению путем объединения небольшого количества помеченных данных с большим объемом неразмеченных данных для решения практических задач.

  • Входные данные: большое количество неразмеченных данных в том же поле и небольшое количество размеченных данных.

  • В основном на основе следующих теоретических основ:

  1. Согласованность Регуляризация: дополнить неразмеченные данные, и полученные в результате дополненные данные вводятся в модель, а их прогнозируемое значение должно соответствовать прогнозируемому значению исходных данных, то есть сохранять самосогласованность.
  2. Минимизировать энтропию (Минимизация энтропии): На основе правила, согласно которому границы классификации классификатора не должны проходить через области с высокой плотностью маргинального распределения. Это делается путем принуждения классификатора к низкоэнтропийным прогнозам для немаркированных данных.
  3. Традиционная регуляризация: чтобы улучшить способность модели к обобщению и предотвратить переоснащение, такое как регуляризация L2 и т. д.
  • Как построить самосогласованный термин регуляризации для полу-контролируемого обучения, находится в центре внимания многих полу-контролируемых модельных исследований.
    • Все идеи Temporal Ensemble, Mean Teacher и MixTemporal используют интеграцию исторических моделей и используют результаты прогнозирования исторической модели/параметры модели для построения правил согласованности.
    • НДС использует добавление нарушения к встраиванию для построения регулярного термина.
    • MixMatch, MixText и UDA используют результаты улучшения выборки. MixMatch использует поворот изображения, масштабирование и т. д. MixText и UDA полагаются на согласованность между выборками, сгенерированными обратным переводом. Большая часть результатов модели зависит от улучшения выборки. качество.

2.2.1 Temporal Ensembling

Temporal Ensembling12Принята модель слияния временных рядов, а экспоненциальное скользящее среднее (EMA) исторических результатов прогнозирования используется в качестве псевдометки неразмеченных данных, чтобы построить согласованный регулярный член с текущими результатами прогнозирования.

  • Рассчитайте кросс-энтропийную потерю с помеченными данными.
  • Для немаркированных данных экспоненциальное скользящее среднее (EMA) исторических результатов множественного прогнозирования используется в качестве цели реконструкции для расчета потерь MSE, что позволяет избежать большой ошибки, вызванной однократным прогнозированием модели в качестве элемента реконструкции. что полезно для сглаживания шума в одиночном прогнозе.
  • В качестве окончательной функции потерь используется взвешенная сумма перекрестной энтропийной потери для размеченных данных и среднеквадратической ошибки для неразмеченных данных.

图7 Temporal ensembling模型结构

вxix_iсодержит помеченные данные и неразмеченный текст данных,yiy_iпредставляет аннотированные метки данных,ziz_iпредставляет текущую модельную паруxix_iпрогнозируемый результат,z~i\tilde{z}_iПредставляет скользящее среднее результатов прогнозирования нескольких эпох для неразмеченных данных в виде распределения вероятностей.w(t)w(t)Указывает вес немаркированных данных MSE, когда модель впервые начинает обучение.w(t)0w(t) \rightarrow 0, в это время модель стремится научиться маркировать метки данных, и по мере увеличения числа итерацийw(t)w(t)Медленно увеличивайте, и в этот момент модель узнает много неразмеченных данных.

2.2.2 Mean Teacher

Mean Teacher13Идея в основном такая же, как модель временного объединения.Временное объединение требует матрицы для сохранения исторической вероятности прогнозирования.Модель среднего учителя использует экспоненциальное скользящее среднее EDA для параметров модели в качестве модели учителя и исходную модель в качестве модели ученика. Непротиворечивая регуляризация строится с использованием предсказанных структур модели Учителя и модели Студента.

  • В Temporal Ensembling целевые метки для неразмеченных данных получаются из средневзвешенного значения первых нескольких прогнозов Epoch модели. В Mean Teacher целевые метки для неразмеченных данных берутся из результатов прогнозирования модели Учитель.
  • Поскольку предсказание метки достигается путем усреднения параметров модели, информация в немаркированной модели может обновляться в модели на каждом этапе, вместо того, чтобы ждать обновления эпохи, как в модели временного ансамбля.

图8 Mean Teacher模型结构

2.2.3 VAT

Виртуальная состязательная тренировка (НДС)14Отличие от модели Temporal Ensembling заключается в том, что последняя использует увеличение данных и Dropout для применения шума к неразмеченным данным, а первая применяет шум в направлении наибольшего изменения модели, так называемый состязательный шум. Если модель остается гладкой по отношению к шуму, то вся сеть может показать хорошую согласованность. Виртуальное состязательное обучение расширяет состязательное обучение на полуконтролируемую область, добавляя регуляризацию к модели, чтобы выходное распределение выборки было таким же, как выходное распределение после возмущения.

  • Сначала из немаркированных данных извлекается случайное стандартное нормальное возмущение.dN(0,1)d \sim \mathcal{N} (0, 1) Добавьте в Embedding и используйте расхождение KL для расчета градиента.
  • Полученные градиенты затем используются для вычисления противоборствующих возмущений и выполнения противоборствующего обучения.
  • Перекрестная энтропийная потеря для помеченных данных и враждебная потеря для немаркированных данных используются в качестве окончательной функции потерь.

2.2.4 MixMatch

MixMatch15Это мастер сочетания улучшения данных, смешивания, повышения резкости и других методов.Важную роль играют два модуля: смешивание и повышение резкости.

图9 MixMatch无标注数据标签构造

  • Немаркированные данные в домене изображенийkkДанные улучшения полосы поступают из поворота, масштабирования и т. д. изображения.
  • Введите данные ярлыкаX=(xb,pb)X=(x_b, p_b), неразмеченные данныеU=(ub)U=(u_b), используя рис. 9 для создания меток для немаркированных данныхqbq_b,qbq_bЭто среднее значение прогнозов, сделанных моделью для неразмеченных данных и данных с расширенными полосами.
  • будетX=(xb,pb)X=(x_b, p_b)иU=(ub,qb)U=(u_b, q_b)Mix для выполнения операции Mixup.
  • Вычислите кросс-энтропийную потерю для помеченных данных и термин потери регуляризации непротиворечивости для немаркированных данных.

2.2.5 MixText

MixText16Вся идея соответствует MixMatch. Сначала используйте обратный перевод для улучшения неразмеченных данных, используйте взвешенную сумму результатов прогнозирования расширенных данных и исходных данных в качестве метки неразмеченных данных, а затем выполните смешивание для размеченных данных и неразмеченных данных одновременно. время.

  • Неразмеченные данные дополняются обратным переводом.
  • Взвешенная сумма результатов прогнозирования расширенных данных и исходных данных с помощью модели используется в качестве метки неразмеченных данных.
  • В то же время перепутайте помеченные данные и немаркированные данные.
  • Изучите кросс-энтропийную потерю для размеченных данных и регуляризацию согласованности для неразмеченных данных.

图10 MixText模型结构图

вxlx_lаннотированный образец,xux_uнемеченый образец,xax_aпредставляет собой улучшенный с помощью обратного перевода образец немеченого образца. Аналогично Manifold Mixup, то же самоеmmСкрытым представлением слоя является Mixup, который может выявить неявные отношения между предложениями. Интерполяция как размеченных, так и неразмеченных данных одновременно позволяет изучать размеченные предложения, используя информацию о неразмеченных предложениях.

2.2.6 MixTemporal

Опираясь на идеи MixMatch и MixText, но предсказание неразмеченных данных не усиливается EDA или обратным переводом, а использует идею Temporal Ensemling, экспоненциального скользящего среднего (EMA) исторических результатов предсказания нескольких эпох. используется как неразмеченные данные, не требует дополнительных средств тезауруса, перевода и т. п. и более удобен в реализации.

Окончательный расчет функции потерь состоит из двух частей: перекрестная энтропия Loss after Mixup + регулярная потеря согласованности неразмеченных данных.

图11 MixTemporal模型结构图

вxix_iаннотированный образец,yiy_iпредставляет аннотированные образцы этикеток,ziz_iпредставляет текущую модельную паруxix_iпрогнозируемый результат,z~i\tilde{z}_iПредставляет скользящее среднее результатов прогнозирования нескольких эпох для неразмеченных данных в виде распределения вероятности,w(t)w(t)Указывает вес немаркированных данных MSE.

2.2.7 UDA

UDA17От Google он также принимает регулярность согласованности. Для изображений UDA используется высококачественный метод повышения качества данных RandAugment для изображений.Для текстовых UDA используются обратный перевод и замена неосновных слов, а значение TF-IDF используется для измерения важности слова для фрагмента. текст, чтобы судить о слове.Будет ли заменено, а затем комбинированный обратный перевод, чтобы сделать замену.

图12 UDA模型结构图

Советы по обучению:

  • Confidence-based masking: фильтрация регулярных терминов согласованности по порогу.
  • Sharpening Predictions: сделать прогнозируемое распределение вероятностей более экстремальным.
  • Domain-relevance Data Filtering: Удалить неактуальные данные в поле, а также выбрать по достоверности.

2.3 Интегрированное обучение + самообучение

В алгоритме обучения с учителем цель состоит в том, чтобы изучить стабильную модель, которая хорошо работает во всех аспектах, но реальная ситуация часто не так идеальна, и иногда можно получить только несколько предпочтительных моделей (модели со слабым учителем, в определенном смысле работают лучше). в некоторых аспектах). Обучение ансамблю заключается в объединении нескольких моделей со слабым наблюдением здесь, чтобы получить лучшую и более полную модель с сильным наблюдением.Основная идея обучения ансамбля заключается в том, что даже если слабый классификатор получает неправильный прогноз, другие слабые классификаторы также могут ошибаться .Исправь обратно. Если различия между моделями, которые нужно объединить, значительны, то обычно после ансамбля получается лучший результат.

Самообучение использует небольшой объем размеченных данных и большой объем неразмеченных данных для совместного обучения модели.Сначала обученный классификатор используется для прогнозирования меток всех неразмеченных данных, а затем метки с большей достоверностью выбираются как псевдо -помеченные данные, Помеченные данные объединяются с помеченными вручную обучающими данными для переобучения классификатора.

  • Ансамблевое обучение: обучайте несколько различных моделей, таких как модель BERT, модель Mixup, модель обучения с полуучителем.
    • Прогнозировать пул данных с каждой моделью отдельноUU(Нерешенные данные) распределение вероятностей метки.
    • Вычислите взвешенную сумму распределения вероятностей меток, чтобы получить мягкое предсказание распределения вероятностей пула данных U.
  • Самообучение: обучает модель сочетать другие модели.
    • Пул данных обучения студенческой моделиUUМягкий прогноз для выборок со средней и высокой достоверностью.
    • Модель студента служит последним сильным учеником.

图13 集成学习+自训练结构图

2.4 Миграция домена

Передача домена в основном решает проблему небольшого количества образцов и множества категорий.

MAML18: Широко цитируемый метод был опубликован в 2017 году, но процесс обучения более сложен, и позже во многих областях его превзошел метод метабазы.

Meta-Baseline19: новый базовый метод, опубликованный в 2020 году, значительно превосходит предыдущий, и этот метод прост, поэтому он называется «Новый базовый уровень». Мета-базовый метод путем предварительного обучения классификатора на всех базовых классах и выполнения мета-обучения на ближайшем центроидном алгоритме классификации с несколькими выстрелами (Few-Shot).

  • Базовый классификатор: используйте кросс-энтропийную потерю для предварительной подготовки классификатора на всех базовых классах, затем удалите последний слой FC, чтобы получить кодировщик функций.fθf_{\theta}.
  • Meta-Baseline
    • Этап предварительного обучения: Обучите базовую модель классификатора.
    • Стадия метаобучения: учитывая задачу с несколькими выстрелами (N-way k-shot), рассчитайте среднее значение характеристик для каждой категории.wc=1Scxеscfθ(x)w_c = \frac{1}{|S_c|}\sum_{x \in s_c}f_{\theta}(x).
    • Для каждого образца в Query-Set используйте косинусное сходство, чтобы вычислить сходство с каждым классом, чтобы уменьшить внутриклассовую дисперсию.

图14 Meta-Baseline模型结构图

2.5 Активное обучение

Active Learning (активное обучение) запрашивает наиболее полезные немаркированные образцы по определенному алгоритму и назначает их экспертам для маркировки, а затем использует запрошенные образцы для обучения модели классификации для повышения точности модели. Неразмеченные данные, выдаваемые моделью, называются «Твердая выборка», и многие методы могут быть получены из различных определений «Твердой выборки», таких как «Неоднозначная выборка», которая является наиболее сложной выборкой для модели; ее можно улучшение модели (изменение) наибольшей выборки, например, увеличение градиента, уменьшение дисперсии и т. д. По сравнению с обучением с учителем, активное обучение позволяет модели уделять больше внимания или изучать «жесткую выборку», чтобы уменьшить количество обучающих выборок, получить лучшую модель.

  • Стратегия запроса является ядром активного обучения. Наиболее часто используется запрос выборки неопределенности. Ключом к выборке неопределенности является описание неопределенности выборки. Обычно существуют следующие идеи:
    • Наименьшая достоверность (Least Confident), например, в случае трех классификаций предсказанные вероятности для двух выборок равны (0,8, 0,1, 0,1) и (0,51, 0,31, 0,18), в этом случае вторые данные более «сложны». "чтобы быть отличимым и, следовательно, более ценным для обозначения.
    • Маржинальная выборка, выберите те выборочные данные, которые с большей вероятностью будут оценены по двум категориям, то есть вероятность того, что эти данные будут оценены по двум категориям, не сильно отличается, а маржинальная выборка выбирает модель с наибольшей и второй по величине вероятностью разница образец.
    • Метод энтропии использует энтропию для измерения неопределенности системы, чем больше неопределенность системы, тем меньше неопределенность системы, тем меньше неопределенность системы, и можно выбрать некоторые выборочные данные, которые относительно велики. данные, которые необходимо отметить.
  • Итеративная идея: ввод, начальный небольшой объем размеченных данныхL0L_0, немаркированный пул данныхUU, модель глубокого обученияMM.
    1. Аннотированные наборы данныхLL0L \leftarrow L_0.
    2. использоватьLLОбучите модельMMи для непомеченных пулов данныхUUДелать предсказания.
    3. Выберите с соответствующей стратегией запросаUUАннотируйте образцы, которые необходимо аннотировать, и добавьте их в набор данных аннотаций.LLсередина.
    4. Повторите 2-3 процесса, пока не будет достигнута точность или бюджет маркировки.

图15 主动学习迭代过程

3 Практика применения

На рис. 16 показан алгоритм на основе BERT.20тонкая настройка модели, включая задачи на отношения между предложениями и задачи классификации отдельных предложений.

  1. задание на классификацию одного предложения: Задача NSP в предварительном обучении модели BERT делает вывод позиции «[CLS]» в BERT содержащей информацию о всей паре предложений (предложении), и мы используем ее для точной настройки модели на помеченные данные, чтобы дать результат прогноза. Общие задачи классификации отдельных предложений, такие как классификация текста, классификация настроений и т. д.
  2. Задача на отношения между предложениями: Используйте «[SEP]» для объединения двух предложений и используйте вывод позиции «[CLS]», чтобы судить о взаимосвязи между двумя предложениями. Общие задачи связи между предложениями, такие как вывод естественного языка, оценка семантического сходства и т. Д.

图16 基于BERT的微调模型

3.1 Экспериментальные результаты

Выше мы упоминали, что есть два основных критерия оценки, улучшение эффекта алгоритма и сохранение размеченных данных.Мы провели эксперименты по тонкой настройке бизнеса Meituan и общего набора данных Benchmark соответственно.

3.1.1 Обучение на малых выборках для улучшения эффекта алгоритма

图17 小样本学习在美团业务Benchmark上效果对比(加粗表示了得分最高的两个结果,下划线表示超出Baseline结果)

图18 小样本学习在中文通用Benchmark上效果对比(Dev集结果,加粗表示了得分最高的两个结果,下划线表示超出Baseline结果)

На рисунках 17 и 18 перечислены результаты четырех улучшений встраивания, двух полууправляемых моделей обучения и моделей ансамблевого обучения + самообучения. Мы также пробовали другие методы, упомянутые выше, такие как UDA/MixText, эти методы основаны на результатах перевода внешнего программного обеспечения для перевода, и эффект нестабилен. Поэтому мы в основном используем вышеперечисленные модели, и сравнение нескольких моделей выглядит следующим образом:

  • увеличение данных: Среди четырех результатов усовершенствования встраивания производительность противоборствующего обучения (AT) является наиболее стабильной, и модель может быть улучшена в среднем на 1pp.
  • полуконтролируемое обучение: улучшение данных является относительно стабильным по сравнению с полууправляемым обучением, но полууправляемое обучение может привести к очевидному улучшению, которое может улучшить модель на 1,5-2 п.п., из которых модель улучшается на 2-4 п.п. в наборе данных AFQMC.
  • Интегрированное обучение + самообучение: Интегрированное обучение + самообучение объединяет результаты прогнозирования одной модели на неразмеченных данных, которые могут в основном достигать или приближаться к лучшим результатам и могут улучшить модель в среднем на 1,5-2 п.п.

3.1.2 Активное обучение, сокращение обучающих выборок

Активное обучение выбирает образцы с более низкой достоверностью в качестве следующей партии меток, что может уменьшить маркировку дубликатов/похожих образцов и снизить затраты на маркировку. Активное обучение можно использовать для выбора начального образца, когда данные маркировки для нового элемента создаются с нуля.

图19 Active Learning与随机选择样本在小样本情况下比较

  • При текущем наборе данных в среднем 500 данных выбора Active Learning могут достигать 1000 результатов случайной выборки, а 900 данных могут быть близки к 1500 результатам случайной выборки. Активное обучение можно использовать для выбора начальных образцов, когда данные аннотации нового элемента создаются с нуля.

3.2 Применение в Meituan Business

3.2.1 Классификация эстетической медицины

Содержание заметок о Meituan и Dianping разделено на 8 категорий в соответствии с темой: охота, исследование, оценка, реальные случаи, процесс лечения, избегание ям, сравнение эффектов и научно-популярная информация. Когда пользователь нажимает на определенную тему, будет возвращено соответствующее содержание заметки, и опыт будет опубликован на странице энциклопедии и странице плана канала медицинской красоты Meituan и Dianping App. Эта задача является типичной задачей классификации текста, и при обучении за несколько шагов достигается точность 89,24% с использованием 2989 элементов обучающих данных.

图20 医美题材分类示例

3.2.2 Определение стратегии

Извлечение стратегий путешествий из пользовательского контента и заметок, предоставление контента для стратегий путешествий и применение его к модулю стратегии при поиске живописных мест, вспоминая содержание заметок, описывающих стратегии путешествий. Эта задача представляет собой задачу бинарной классификации, и точность обучения на небольшой выборке с использованием 384 обучающих данных достигает 87%.

图21 攻略识别示例

3.2.3 Маркировка медицинской эстетической эффективности

Содержание заметок о Meituan и Dianping вспоминается в соответствии с их эффектами.Типы эффектов: увлажнение, отбеливание, подтяжка лица, удаление морщин и т. Д., И переходите на страницу канала медицинской красоты. Эта задача представляет собой задачу на отношения между предложениями.Полное количество заметок составляет 1,04 миллиона.Необходимо отметить 110 типов функций.Обучение с небольшой выборкой использует только 2909 единиц обучающих данных, а уровень точности достигает 91,88%.

图22 医美功效打标示例

3.2.4 Маркировка медицинских косметических брендов

У компаний, занимающихся продвижением бренда, есть потребности в продвижении бренда и маркетинге своей продукции, а контент-маркетинг является одним из основных и эффективных методов маркетинга в настоящее время. Маркировка бренда заключается в том, чтобы напомнить содержание примечаний с подробным описанием бренда для каждого бренда, например «Evolution» и «Shuweike». Сначала используйте слова бренда для сопоставления, а затем оцените релевантность слов бренда и совпадающего содержания примечания, будь то подробное описание бренда или просто упоминание названия бренда, и перейдите в Интернет в Павильон бренда медицинской косметики. Эта задача представляет собой задачу на отношения между предложениями. Существует 103 бренда, 15 основных брендов с 64 элементами данных для каждой метки и 5-8 элементов данных для каждого ярлыка других брендов. В обучении с небольшой выборкой используется только 1676 элементов обучения. данных, а точность достигает 88,59 %.

图23 医美品牌打标示例

3.2.5 Другие бизнес-приложения

  • Достоверность медицинской эстетической оценки: Если в комментариях и в Meituan Medical Beauty Business есть поддельные отзывы, это нанесет большой вред опыту и должно быть обнаружено моделью. Отобранные и помеченные данные с помощью активного обучения, улучшения данных, частично контролируемого обучения и интегрированного обучения + модели оптимизации самообучения, и, наконец, бизнес-сторона пометила только 1757 фрагментов данных, модель может достичь точности 95,88% в обнаружении предполагаемых ложных оценок, превышение деловых ожиданий.
  • Анализ настроений маркировки POI: это задание на взаимосвязь между предложениями, в котором оценивается эмоциональная ориентация (положительная, отрицательная, неопределенная и нерелевантная) запроса и содержания. Существующая модель обучается на 10 000 фрагментов данных, и за счет обучения на небольшой выборке точность модели повышается на 0,63 п.п. по сравнению с существующей моделью.
  • Классификация текстов Xuecheng (внутренний инструмент обучения Meituan): это задание представляет собой задание на классификацию текста, которое делит текст на 17 категорий. Существующая модель обучается на 700 элементах данных, и за счет обучения на небольшой выборке точность модели повышается на 2,5 п.п. по сравнению с существующей моделью.

4 Будущие перспективы

  1. Постоянно улучшайте существующие модели и исследуйте новые модели. В текущих экспериментальных результатах еще много возможностей для улучшения, и необходимо постоянно исследовать и улучшать модель; в то же время исследовать больше моделей передачи доменов и применять их к бизнесу, чтобы бизнес-сторона могла тренируйте лучшие результаты с наименьшим количеством данных.
  2. Поэкспериментируйте с другими типами задач. В настоящее время эксперименты в основном проводятся с такими типами задач, как классификация одного предложения и классификация между предложениями, и необходимы дополнительные модели MRC и модели распознавания именованных объектов.
  3. Глубокое погружение в передачу домена и обучение типовых моделей. В настоящее время мы подключили много предприятий, поэтому мы накопили наборы данных классификации текстов и связей между предложениями во многих областях.Мы надеемся обучить общую модель для различных задач в этой области, чтобы использовать больше Небольшое количество данные могут достичь хороших результатов в бизнесе. как доступно через Facebook EFL21Модель, как задачи классификации текста, так и задачи связи между предложениями в этой области переформулированы как задачи извлечения текста для обучения общей модели, которая может быть непосредственно перенесена в новый бизнес.
  4. Создайте небольшую обучающую платформу. В настоящее время возможность обучения на малых выборках интегрируется в унифицированную платформу BERT компании, которая открыта для гибкого использования всеми бизнес-подразделениями компании. В последующем, после более глубокого изучения обучения на малых выборках, мы попытаемся создать отдельную платформу обучения на малых выборках, чтобы предоставить больше возможностей обучения с низким уровнем ресурсов.

использованная литература

  • [1] Wei J, Zou K. Eda: Easy data augmentation techniques for boosting performance on text classification tasks[J]. arXiv preprint arXiv:1901.11196, 2019.
  • [2] Kobayashi S. Contextual augmentation: Data augmentation by words with paradigmatic relations[J]. arXiv preprint arXiv:1805.06201, 2018.
  • [3] Anaby-Tavor A, Carmeli B, Goldbraich E, et al. Not Enough Data? Deep Learning to the Rescue![J]. arXiv preprint arXiv:1911.03118, 2019.
  • [4] Wei J, Huang C, Vosoughi S, et al. Few-Shot Text Classification with Triplet Networks, Data Augmentation, and Curriculum Learning[J]. arXiv preprint arXiv:2103.07552, 2021.
  • [5] Andreas J. Good-enough compositional data augmentation[J]. arXiv preprint arXiv:1904.09545, 2019.
  • [6] Zhang H, Cisse M, Dauphin Y N, et al. Mixup: Beyond empirical risk minimization[J]. arXiv preprint arXiv:1710.09412, 2017.
  • [7] Guo D, Kim Y, Rush A M. Sequence-level mixed sample data augmentation[J]. arXiv preprint arXiv:2011.09039, 2020.
  • [8] Zhang R, Yu Y, Zhang C. Seqmix: Augmenting active sequence labeling via sequence mixup[J]. arXiv preprint arXiv:2010.02322, 2020.
  • [9] Verma V, Lamb A, Beckham C, et al. Manifold mixup: Better representations by interpolating hidden states[C]//International Conference on Machine Learning. PMLR, 2019: 6438-6447.
  • [10] Miyato T, Dai A M, Goodfellow I. Adversarial training methods for semi-supervised text classification[J]. arXiv preprint arXiv:1605.07725, 2016.
  • [11] Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks[J]. arXiv preprint arXiv:2106.14448, 2021.
  • [12] Laine S, Aila T. Temporal ensembling for semi-supervised learning[J]. arXiv preprint arXiv:1610.02242, 2016.
  • [13] Tarvainen A, Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[J]. arXiv preprint arXiv:1703.01780, 2017.
  • [14] Miyato T, Maeda S, Koyama M, et al. Virtual adversarial training: a regularization method for supervised and semi-supervised learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(8): 1979-1993.
  • [15] Berthelot D, Carlini N, Goodfellow I, et al. Mixmatch: A holistic approach to semi-supervised learning[J]. arXiv preprint arXiv:1905.02249, 2019.
  • [16] Chen J, Yang Z, Yang D. Mixtext: Linguistically-informed interpolation of hidden space for semi-supervised text classification[J]. arXiv preprint arXiv:2004.12239, 2020.
  • [17] Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation for consistency training[J]. arXiv preprint arXiv:1904.12848, 2019.
  • [18] Finn C, Abbeel P, Levine S. Model-agnostic meta-learning for fast adaptation of deep networks[C]//International Conference on Machine Learning. PMLR, 2017: 1126-1135.
  • [19] Chen Y, Wang X, Liu Z, et al. A new meta-baseline for few-shot learning[J]. arXiv preprint arXiv:2003.04390, 2020.
  • [20] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
  • [21] Wang S, Fang H, Khabsa M, et al. Entailment as Few-Shot Learner[J]. arXiv preprint arXiv:2104.14690, 2021.

об авторе

Луо Ин, Сюй Цзюнь, Се Жуй, У Вэй и т. д. — все они из отдела поиска Meituan и отдела НЛП/центра НЛП.

Предложения о работе

Отдел поиска и НЛП Meituan/Центр НЛП является основной группой, отвечающей за исследования и разработку технологии искусственного интеллекта Meituan.Его миссия состоит в том, чтобы создать базовую технологию обработки естественного языка и сервисные возможности мирового уровня, опираясь на НЛП (обработка естественного языка). , Deep Learning (глубокое обучение), Knowledge Graph (Knowledge Graph) и другие технологии для обработки массивных текстовых данных Meituan и предоставления услуг интеллектуального семантического понимания текста для различных предприятий Meituan.

Центр НЛП уже давно набирает специалистов по алгоритмам обработки естественного языка/алгоритмов машинного обучения.Заинтересованные студенты могут отправить свои резюме по адресу:xujun12@meituan.com.

Прочтите другие подборки технических статей от технической команды Meituan

внешний интерфейс | алгоритм | задняя часть | данные | Безопасность | Эксплуатация и техническое обслуживание | iOS | Android | контрольная работа

|Ответьте на ключевые слова, такие как [акции 2020 г.], [акции 2019 г.], [акции 2018 г.], [акции 2017 г.] в диалоговом окне строки меню общедоступной учетной записи, и вы сможете просмотреть коллекцию технических статей технической группы Meituan в течение годы.

| Эта статья подготовлена ​​технической командой Meituan, авторские права принадлежат Meituan. Добро пожаловать на перепечатку или использование содержимого этой статьи в некоммерческих целях, таких как обмен и общение, пожалуйста, укажите «Содержимое воспроизводится технической командой Meituan». Эта статья не может быть воспроизведена или использована в коммерческих целях без разрешения. Для любой коммерческой деятельности, пожалуйста, отправьте электронное письмо по адресуtech@meituan.comПодать заявку на авторизацию.