Лучшая короткая статья на SIGIR 2018: Междоменная регуляризация с использованием состязательного обучения

Выбрано из arXiv, Дэниелом Коэном и т. д., составлено Heart of the Machine.

Международная конференция ACM по исследованиям и разработкам в области информационного поиска SIGIR 2018 недавно прошла в Анн-Арборе, штат Мичиган, США. В настоящее время конференция объявила о таких наградах, как лучшая статья, статья Автономного университета Мадрида.«Должен ли я следовать за толпой? Вероятностный анализ эффективности популярности в рекомендательных системах»Выиграл награду за лучшую статью, а совместная статья Microsoft и Массачусетского университета в Амхерсте «Междоменная регуляризация для моделей нейронного ранжирования с использованием состязательного обучения» получила награду за лучшую короткую статью. В этой статье будет представлено краткое введение в лучшие короткие статьи.

1. Введение

Недавно в научных кругах был предложен ряд нейронных моделей ранжирования, учитывающих исходный текст запроса-документа (текст запроса-документа) [14], сопоставление шаблонов документов на основе точных терминов запроса [5] или их комбинацию. 10] ] для оценки релевантности между документом и запросом. Эти модели обычно учатся различать распределения входных признаков, соответствующие релевантным парам запрос-документ, и менее релевантным парам запрос-документ, наблюдая большое количество релевантных и нерелевантных выборок во время обучения. В отличие от традиционных моделей обучения по рангу (LTR), которые полагаются на созданные вручную функции, эти модели глубокой нейронной сети напрямую изучают представления более высокого уровня из данных, которые можно использовать для целевой задачи. Их способность изучать функции из обучающих данных является мощным свойством, которое дает им возможность обнаруживать новые отношения, не зафиксированные с помощью функций, созданных вручную.

Однако, как обсуждали Митра и Крэсвелл [9], способность изучать новые функции может быть достигнута за счет плохого обобщения и производительности в областях, не охваченных процессом обучения. Например, модель может заметить, что определенная пара фраз встречается в обучающем корпусе чаще, чем другие фразы, такие как «Тереза Мэй» и «Премьер-министр». В качестве альтернативы модель может сделать вывод, что изучение хорошего представления «Терезы Мэй» важнее, чем изучение представления «Джон Мейджор», на основе относительной частоты совпадения фраз в обучающих запросах. Хотя эти корреляции и распределения важны для достижения оптимальной производительности в одной области, если нас больше интересует производительность модели в невидимых областях, то модель должна научиться быть более устойчивой к невидимым областям. Напротив, традиционные модели поиска (такие как BM25 [12]) и модели LTR обычно демонстрируют высокую надежность при междоменной производительности.

Целью этого исследования является обучение моделей глубокого нейронного ранжирования, которые извлекают полезные представления из данных без «переобучения» распределения области обучения. Недавно было показано, что состязательное обучение является эффективным междоменным регуляризатором, подходящим для задач классификации [3, 17]. В этой статье исследователи корректируют это и предлагают аналогичную стратегию, которая позволяет нейронным моделям ранжирования изучать представления, которые более устойчивы к различным областям. Мы обучаем нейронные модели ранжирования на небольшом наборе доменов и оцениваем производительность модели на заданных доменах. Во время обучения мы объединяем нейронную модель ранжирования с состязательным дискриминатором, который пытается предсказать область обучающих выборок на основе представлений, полученных моделью ранжирования. Градиент враждебного дискриминатора меняется на противоположный при обратном распространении по слоям модели ранжирования. Это обеспечивает отрицательную обратную связь с моделью ранжирования, не позволяя ей изучать представления, которые имеют смысл только для определенной области. Эксперименты показывают, что состязательное обучение обеспечивает последовательное улучшение эффективности ранжирования в заданной области, иногда даже достигая повышения точности на 1 до 30%.

3 Междоменная регуляризация с использованием состязательного обучения

Мотивация состязательных дискриминаторов состоит в том, чтобы позволить нейронным моделям изучать независимые от предметной области функции, которые помогают оценивать корреляции. Цель обучения традиционных моделей нейронного ранжирования состоит только в том, чтобы оптимизировать оценку корреляции, игнорируя природу внутренне изученных функций. В этой статье исследователи предлагают использовать враждебные агенты, чтобы сделать функции, изученные моделью ранжирования, независимыми от предметной области, регулируя направление параметров модели (в противоположном направлении) в специфичном для предметной области пространстве на многообразии. Эта междоменная регуляризация посредством смешения доменов [17] может быть представлена следующей функцией совместных потерь:

где L_rel — это корреляция, основанная на функции потерь, а L_adv — потеря состязательного дискриминатора. q, docr и docnr — это запросы, связанные документы и несвязанные документы соответственно. Наконец, θ_rel и θ_D — это параметры корреляционной модели и состязательной модели соответственно. λ определяет, насколько потери из-за алиасинга домена влияют на процесс оптимизации. Исследователи используют его как гиперпараметр в процессе обучения. Модель ранжирования обучается на нескольких обучающих доменах D_train = {d_1,...,d_k} и оценивается в удерживаемом домене D_test = {d_k+1,...,d_n}.

Дискриминатор — это классификатор, который проверяет выходные данные скрытого слоя модели ранжирования и пытается предсказать домен d_true ∈ D_train обучающих выборок. Дискриминатор обучается с использованием стандартной кросс-энтропийной потери.

Обновления градиента выполняются путем обратного распространения на все последующие слои, в том числе принадлежащие модели ранжирования. Однако исследователи используют слой обращения градиента (Ганин и др. [3]). Этот слой будет стандартным градиентом

Преобразовать в его аддитивную обратную

. Это приводит к тому, что θ_rel максимизирует потерю идентификации домена, в то же время позволяя θ_D изучить дискриминационный домен. Хотя это и не оптимизировано напрямую, это можно рассматривать как модификацию (1) посредством изменения знака L_adv.

Пешеходная поисковая модель. Мы оцениваем метод состязательного обучения в задаче поиска пешеходов. В качестве базовых моделей они используют модель нейронного ранжирования, предложенную Таном и др. [16] (далее именуемую CosSim), и модель Duet [10]. Эта статья посвящена изучению текстовых представлений, не зависящих от предметной области. Поэтому, как и в случае Замани и др. [20], в этом исследовании рассматривается только распределенная подсеть модели Duet.

Модель CosSim представляет собой архитектуру взаимодействия на основе LSTM. Исследователи использовали метод [16] для обучения модели CosSim и получили результат на 0,2 выше, чем функция потерь шарнира. Модель, распределенная по Дуэту, обучается путем максимизации логарифмической вероятности правильного пешехода в соответствии с методом, предложенным в [10]. Как и в [11], мы настраиваем гиперпараметры модели Duet в соответствии с задачей поиска пешеходов. После характеристики максимального пула выход продукта Адамара значительно сокращается, длина запроса увеличивается с 8 токенов до 20, а максимальная длина документа уменьшается с первоначальных 1000 токенов до 300.

В отличие от предыдущих исследований с использованием состязательных методов [3, 6, 17], ранжирование требует моделирования взаимодействия между запросами и документами. Как показано на рисунке 1а, в этом случае состязательный дискриминатор проверяет совместное представление запроса и документа, полученное с помощью модели нейронного ранжирования. Для более глубоких архитектур, таких как распределенная модель Duet, мы позволяем дискриминатору проверять дополнительные уровни в модели ранжирования, как показано на рисунке 1b.

Рисунок 1: Междоменная регуляризация с использованием состязательных дискриминаторов для двух базовых моделей (распределенная CosSim и Duet). Дискриминатор проверяет представления, полученные моделью ранжирования, и выдает сигнал отрицательной обратной связи для любых представлений, которые помогают различению предметной области.

5. Результаты и обсуждение

Таблица 1: Производительность модели по темам L4, метрики по каждому ансамблю представляют производительность модели, обученной на двух других ансамблях. All* относится ко всему набору L4 (с удаленной целевой темой). † Указывает на значительное улучшение производительности по сравнению с непротиворечивыми моделями (p

Таблица 2: Производительность в ансамблях, производительность в каждом ансамбле представляет собой производительность модели, обученной на двух других ансамблях. † Указывает на значительное улучшение производительности по сравнению с непротиворечивыми моделями (т. е. p

Бумага: Междоменная регуляризация для моделей нейронного ранжирования с использованием состязательного обучения

Ссылка на бумагу:АР Вест V.org/ABS/1805.03…

Резюме:В отличие от традиционных моделей ранжирования обучения, которые полагаются на созданные вручную функции, модели обучения нейронного представления изучают функции более высокого уровня для задачи ранжирования путем обучения на больших наборах данных. Однако эта способность изучать новые функции непосредственно из данных может иметь свою цену. Без какого-либо специального контроля эти модели могут изучать отношения, которые существуют только в области выборки обучающих данных, но с трудом обобщаются на области, не наблюдаемые во время обучения. Мы исследуем эффективность состязательного обучения как междоменного регуляризатора в задаче ранжирования. Мы обучаем нашу нейронную модель ранжирования на небольшом количестве доменов, используя состязательный дискриминатор, который обеспечивает сигнал отрицательной обратной связи, чтобы модель не изучала представления, специфичные для предметной области. Наши эксперименты показывают, что при использовании состязательного дискриминатора модель постоянно работает лучше в заданной области, иногда даже достигая повышения точности @ 1 до 30%.