задний план
В последние годы искусственному интеллекту с технологией глубокого обучения в качестве ядра уделяется большое внимание, будь то в академических кругах или в промышленности, все они делают глубокое обучение в центре внимания исследовательских приложений. Стремительное развитие технологии глубокого обучения неотделимо от накопления массивных данных, повышения вычислительной мощности и совершенствования моделей алгоритмов. В этой статье в основном представлено применение технологии глубокого обучения в текстовом поле.Текстовое поле можно условно разделить на четыре измерения: слова, предложения, главы и приложения системного уровня.
- слово. С точки зрения сегментации слов, от самого классического прямого и обратного сопоставления до маркировки последовательностей условного случайного поля (CRF) до текущей модели Bi-LSTM + CRF, нет необходимости разрабатывать функции, и наилучшая последовательность может быть достигнута из степень детализации слов эффект маркировки, и может быть расширена до проблемы маркировки последовательности в тексте, такой как маркировка части речи и специальное распознавание.
- приговор. С точки зрения Parser, в дополнение к аннотации последовательности глубокого обучения, представленной гранулярностью слов, модель глубокого обучения также может использоваться для улучшения эффекта суждения промежуточной классификации Shift-Reduce; с точки зрения генерации предложений, автоматический генератор предложений может быть обучены с помощью модели «последовательность к последовательности» (Seq2Seq), которую можно использовать в светской беседе или переписывании предложений и других сценариях.
- глава. С точки зрения анализа настроений сверточные нейронные сети могут использоваться для прямого моделирования входного текста для прогнозирования эмоциональных меток; с точки зрения понимания прочитанного, рекуррентная нейронная сеть с функцией памяти может быть разработана для понимания прочитанного, что также является очень популярным исследованием. проблема последних лет.
- приложения системного уровня. С точки зрения поиска информации, технология глубокого обучения используется при сопоставлении текста для вычисления сходства, которое может быть представлено BOW, сверточной нейронной сетью или рекуррентной нейронной сетью для повторного изучения отношения соответствия (например, серии DSSM), а DNN используется в качестве модели сортировки (например, Google). С точки зрения машинного перевода, от модели Seq2Seq до многоуровневой сети LSTM, такой как Stack-LSTM + Attention, модель статистического машинного перевода на основе слов была превзойдена моделью на основе нейронной сети. модель перевода, и она была применена к таким продуктам, как Google Translate, Baidu Translate, Youdao Translate и т. д.; с точки зрения интеллектуального взаимодействия, глубокое обучение используется в классификации, управлении состоянием (например, глубоком обучении с подкреплением), генерации ответов и т.д. В каждой ссылке есть очень хорошие приложения.
Короче говоря, вышеупомянутые приложения глубокого обучения в текстовом поле — это лишь верхушка айсберга.Приложения глубокого обучения включают графы знаний, автоматическое суммирование, речь и генерацию текста изображений. Общая тенденция заключается в том, что каждое направление исследования и применения текста пробует технологию глубокого обучения и соответственно добилось прогресса. В области текста, если мы хотим совершить прорыв, такой как изображения и речь, мы все еще сталкиваемся со многими трудностями, такими как отсутствие крупномасштабных размеченных данных для различных задач и как моделировать логику языка и его региональные особенности. и культурные особенности. Из-за нехватки места в этой статье представлены только модели сопоставления и сортировки текста, которые Meituan использует в текстах.
Сопоставление текста на основе глубокого обучения
Сопоставление текста полезно во многих областях, особенно в сценариях, связанных с поиском информации, таких как Query и Doc в поиске, Query-Ad в рекламе, префикс запроса и предложение Query в поиске (см. рис. 1), Query и Query в рекомендации по ключевым словам, Doc и Doc и т. д., когда документ дедуплицирован.
Рисунок 1: Сценарий сопоставления текста Meituan Query-POI и Query SuggestionСопоставление текстов в основном изучает проблему вычисления сходства между двумя текстами. Проблема сходства состоит из двух слоев: один — как представить два фрагмента текста так, чтобы их можно было легко обработать на компьютере, что требует изучения разницы в эффекте различных методов представления; другой — как определить сходство как цели оптимизации, такие как сходство семантического сопоставления, сходство взаимодействий кликов, сходство поведения пользователей и т. д., которые тесно связаны с бизнес-сценариями.
В процессе решения этих двух задач возникнет множество трудностей, одна из которых — как адекватно спроектировать модель с семантикой. Поскольку китайские многозначные слова и синонимы очень распространены, они выражают разные значения в разных контекстах. Например, сколько стоит яблоко? Сколько стоит фунт яблок? По первому, по «одному», видно, что он относится к электронному оборудованию марки Apple, а по второму — к фруктам. Конечно, есть много более сложных лингвистических явлений, таких как тон, контекст и различные выражения разговорной речи.
Представление и сопоставление текста является основной линией этого раздела, а то, как добиться соответствия семантического уровня, становится основной темой этого раздела. Под влиянием развития общей технологии технология сопоставления текстов также имеет технологический процесс, соответствующий времени, как показано на рисунке 2.
Рис. 2. Эволюция модели сопоставления семантического представления1. Векторное пространство
Модель векторного пространства, предложенная примерно в 1970 году, заключается в использовании TF-IDF для вычисления веса слова с использованием вектора, представляющего размерность словаря документа.Например, стандартный словарь содержит идентификатор слова, слово и IDF, а другой список стоп-слов, как показано на рисунке 3.
Рисунок 3 Пример модели векторного пространстваПосле удаления стоп-слов из текста «цена отеля в Лицзяне», получите Лицзян, отель, цена, количество вхождений слова равно 1, просмотрите таблицу IDF, чтобы получить представление этого текста: [0, 1.5, 2.1, 0, 0, … , 0, 4.1]. Веса используют TF × IDF, TF — это частота Term в тексте, а IDF — обратная частота документа, Существует множество определений этих двух значений, как показано на рисунке 4. Здесь используется второе определение.
Рисунок 4 Общие определения TF и IDFМодель векторного пространства использует многомерные разреженные векторы для представления документов, что является простым и понятным. Соответствующая размерность рассчитывается с использованием TF-IDF, которая включает точечную взаимную информационную энтропию слов и документов и длину кодирования информации документов с точки зрения теории информации. Документы имеют векторное представление, так как же вычислить сходство? Формулы измерения включают Жаккара, Косинус, Евклидово расстояние, BM25 и т. д. Среди них BM25 — очень классический метод измерения подобия сопоставления документов Формула выглядит следующим образом:
Хотя модель векторного пространства не может содержать информацию о синонимах и многозначных словах, а размерность увеличивается по мере увеличения словаря, она по-прежнему является важным свойством каждой поисковой системы, поскольку она проста, понятна и хорошо работает.
2. Матричная факторизация
Высокая размерность модели векторного пространства не годится для описания семантической информации, и коллекция документов будет представлена в виде разреженной большой матрицы высокой размерности. Примерно в 1990 году некоторые люди изучали метод матричной декомпозиции, чтобы разложить многомерную разреженную матрицу на две узкие и длинные маленькие матрицы, и эти две низкоразмерные матрицы содержат семантическую информацию.Этот процесс представляет собой латентный семантический анализ.
Предполагая, что имеется N документов с общим количеством V слов, разреженная матрица X размера N × V представлена векторным пространством TF-IDF, и семантический анализ слов и документов работает с этой матрицей совпадений. Эта матрица совпадения может быть преобразована в три матрицы посредством разложения по сингулярным числам Размер длинной и узкой матрицы U равен N × K, размер V равен K × V, а средний — размер диагональной матрицы K × K. , как показано на рисунке 5.
После декомпозиции каждый документ представлен K-мерным вектором (K
Скрытый семантический анализ может выполнять низкоразмерное семантическое представление документов или слов, и его производительность высока при сопоставлении (например, количество допустимых слов в документе больше K), он содержит семантическую информацию и более точным для некоторых документов с одинаковой семантикой. Однако латентный семантический анализ плохо моделирует семантику многозначных слов, и K-мерный семантический вектор полностью получается на основе математической декомпозиции, а физический смысл не ясен. Итак, примерно в 2000 году для решения вышеперечисленных задач появились тематические модели.
Рисунок 5. Диаграмма декомпозиции матрицы совпадения документов Word с помощью латентного семантического анализа3. Тематическая модель
С 2000 по 2015 год тематическая модель, основанная на вероятностной графической модели, вызвала бум, так каковы преимущества этой модели, чтобы привлечь всех?
pLSA (вероятностный латентный семантический анализ)
pLSA вводит понятие темы поверх латентного семантического анализа. Это семантическое значение Тематическое моделирование документов - это уже не матричная декомпозиция, а распределение вероятностей (например, полиномиальное распределение), так что распределение многозначных слов может быть решено, а тема имеет четкое значение. Но в основе этого анализа по-прежнему лежит частота совпадения документов и слов.Цель анализа – установить отношения между словами/документами и этими скрытыми темами, которые, в свою очередь, становятся мостом для смысловых ассоциаций. Этот переходный переход можно показать на рисунке 6.
Рис. 6. Вероятностная модель от совпадения слова и документа до введения скрытых темПредполагая, что каждая статья состоит из нескольких тем, вероятность каждой темы равна p(z|d), а при условии заданной темы каждое слово генерируется с определенной вероятностью p(w|z). Таким образом, совместное появление документов и слов можно описать производственным способом:
Его вероятностная графическая модель представлена на рисунке 7:
Рисунок 7. Вероятностная модель pLSAАлгоритм EM можно использовать для изучения p(z|d) и p(w|z) в качестве параметров. Конкретный алгоритм см. в статье Томаса Хофманна по pLSA. Количество параметров p(z|d), которые необходимо выучить, представляет собой отношение между количеством тем и количеством документов, а p(w|z) — это отношение между количеством словарного запаса и количеством тем. Пространство параметров велико, и его легко переобучить. Поэтому мы вводим сопряженное распределение полиномиального распределения для байесовского моделирования, которое является методом, используемым LDA.
LDA (скрытое распределение Дирихле)
Если pLSA является представителем частотной школы, то LDA является представителем байесовской школы. LDA полностью математически объясняет процесс создания документа, вводя распределение Дирихле как полиномиальное сопряженное априорное значение, а его вероятностная графическая модель показана на рисунке 8.
Рис. 8 Вероятностная графическая модель LDAВ отличие от вероятностной графической модели pLSA, вероятностная графическая модель LDA вводит две случайные величины α и β, которые представляют собой распределения, управляющие распределением параметров, то есть тема документа соответствует полиномиальному распределению. Генерация этого полиномиального распределения контролируется априорным распределением Дирихле, а параметры могут быть получены с использованием вариационной электромагнитной совместимости и выборки Гиббса, которые здесь не описываются.
В общем, тематическая модель вводит понятие «Тема» с физическим значением, и модель может изучать синонимию, полисемию, семантическую корреляцию и другую информацию посредством информации о совпадении. Результирующее распределение вероятностей темы становится более разумным и значимым в качестве представления. С представлением документа при сопоставлении мы можем не только использовать предыдущий метод измерения, но и ввести формулу распределения измерения типа KL, которая широко используется в области сопоставления текстов. Конечно, тематическая модель будет иметь некоторые проблемы, такие как плохой эффект логического вывода для коротких текстов, медленное обучение со многими параметрами и введение моделирования стохастического процесса, чтобы избежать проблемы необоснованной ручной установки количества тем. При дальнейшем развитии исследований эти проблемы в основном решаются, например, для задачи медленной скорости обучения от LDA к SparseLDA, AliasLDA, к LightLDA, WarpLDA и т. д. скорость выборки снижается с O(K) до от O(1) до .
4. Глубокое обучение
В 2013 году Томас Миколов опубликовал статью, связанную с Word2Vec. Две предложенные модели, CBOW (непрерывный пакет слов) и Skip-Gram, могут очень быстро обучать встраивания слов, а также могут добавлять и вычитать векторы слов. Это получило много отзывов. внимание. До этой работы модели нейронных сетей прошли долгую эволюцию. Здесь мы впервые представляем работу Йошуа Бенжио с использованием нейронных сетей в качестве языковых моделей в 2003 году. Word2Vec также является одним из многих улучшений.
Языковая модель нейронной сети
В 2003 году Йошуа Бенжио использовал нейронные сети для обучения языковых моделей намного лучше, чем N-Gram.Структура сети показана на рисунке 9. Вход представляет собой слово N-грамм, предсказать следующее слово. Первые n слов используются для нахождения плотного вектора C(w(t-1)), C(w(t-2)) слова через векторную матрицу слов Matrix C (размерность: n*emb_size); затем соедините к неявному Скрытый слой используется для нелинейного преобразования; затем он подключается к выходному слою, чтобы сделать Softmax для предсказания вероятности следующего слова; во время обучения вес сети корректируется обратным распространением в соответствии с ошибкой самого внешнего слоя . Можно видеть, что сложность обучения модели составляет O(n×emb_size + n×emb_size×hidden_size + hidden_size×output_size), где n равно 5~10, emb_size равно 64~1024, hidden_size равно 64~1023, а output_size это слово Размер таблицы, например 10^7. Поскольку Softmax нужны значения всех слов при нормализации вероятности, сложность в основном отражается на последнем слое. С тех пор было предложено множество алгоритмов оптимизации, таких как Hierarchical Softmax и Noise Contrastive Estimation.
Рис. 9 Структурная схема языковой модели нейронной сетиWord2Vec
Сетевая структура Word2Vec имеет два типа: CBOW и Skip-Gram, как показано на рисунке 10. По сравнению с NNLM, Word2Vec уменьшает скрытый слой и имеет только проекционный слой. Выходной слой представляет собой древовидный Softmax.Кодирование Хаффмана выполняется для каждого слова.При прогнозировании слова необходимо предсказать только коды 0 и 1 на пути, так что сложность снижается с O(V) до O (лог(V) ).
Если взять CBOW в качестве примера, алгоритм выглядит следующим образом:
(1) Соответствующая размерность вектора слов контекстного слова (размер окна Win) отображается на слой проекции. (2) Слой проекции предсказывает путь кодирования (дерево Хаффмана) текущего слова после преобразования сигмоида. (3) Обратное распространение с использованием функции перекрестной энтропийной потери (Cross Entropy Loss) для обновления параметров слоя внедрения и промежуточного слоя. (4) Обучение использует механизм обратного распространения, а метод оптимизации использует SGD.
Рисунок 10 Схематическая диаграмма модели Word2VecИз потока алгоритма видно, что сложность прогнозирования самого внешнего слоя значительно снижается, а также удаляется скрытый слой, что значительно повышает скорость вычислений. Алгоритм может получить вложение слова в плотное слово, которое является очень хорошим представлением и может использоваться для вычисления степени соответствия текста. Однако, поскольку цель обучения модели состоит в том, чтобы предсказать вероятность появления слова, то есть языковой модели, то, что извлекается из массивного корпуса, представляет собой общую семантическую информацию слов, которая не может быть непосредственно применена к сцене сопоставления слов. индивидуальный бизнес. Можно ли семантическое представление и сопоставление моделировать одновременно в соответствии с бизнес-сценариями, чтобы улучшить эффект сопоставления? Серия работ DSSM полностью рассматривает репрезентацию и сопоставление.
Серия DSSM
Этот вид метода может интегрировать представление и обучение моделированию, и он более репрезентативен для связанной работы Microsoft. Серия DSSM будет представлена ниже.
(1) Структура модели DSSM
Структура сети DSSM показана на рисунке 11:
Рис. 11. Структурная схема сети DSSM.Используйте найденные данные кликов для обучения семантической модели, введите запрос запроса (Q) и список документов (D), показывающий клик, сначала создайте семантическое представление Q и D, затем рассчитайте сходство с помощью косинуса Q-DK и используйте Softmax, чтобы различать щелчки или нет. Среди них семантическое представление сначала использует хеширование слов для уменьшения размерности словаря (например, Ngram английских букв) и получает 128-мерные представления Q и D после нескольких слоев полных соединений и нелинейных изменений. Из экспериментального заключения видно, что улучшение индекса NDCG все еще очевидно, как показано на рисунке 12.
Рис. 12. Сравнение DSSM и других моделей на данных поиска Bing(2) CLSM
На основе DSSM CLSM добавляет операции одномерной свертки и объединения для получения глобальной информации о предложениях, как показано на рисунке 13. Путем введения операции свертки можно полностью учесть влияние контекста в окне, чтобы обеспечить персонализированную семантику слов в разных контекстах.
Рисунок 13: Структурная схема сети CLSMСоответствующий эффект показан на рисунке 14:
Рис. 14. Сравнение CLSM и других моделей на данных поиска Bing(3) LSTM-DSSM
LSTM-DSSM использует LSTM в качестве представления Q и D, другие платформы согласуются с DSSM, а схема его сетевой структуры показана на рисунке 15. Поскольку LSTM имеет функцию семантической памяти и содержит информацию о порядке слов, он больше подходит для представления предложений. Конечно, также можно использовать двунаправленный LSTM и модель внимания.
Рис. 15. Структурная схема сети LSTM-DSSM.Алгоритм сопоставления текста с глубоким обучением Meituan
Как классическая проблема обработки естественного языка, семантическое сопоставление текста может использоваться при воспроизведении и сортировке поисковых систем, таких как поиск, рекомендация и реклама, а также может использоваться в таких сценариях, как дедупликация текста, нормализация, кластеризация, и добыча. Общие методы и последние достижения в области семантического сопоставления были представлены ранее.
В типичном сценарии приложения O2O, таком как Meituan, представление результатов не только тесно связано с семантикой языкового уровня, выраженной пользователем, но также тесно связано с намерением пользователя и статусом пользователя. Намерение пользователя — это то, что делает пользователь? Например, когда пользователь ищет «Гуанней и Гуанвай» на Baidu, его намерение может заключаться в том, чтобы узнать географическую область, представленную Гуанней и Гуанвай. «Гуанней» и «Гуанвай» извлекаются как два слова. В Meituan при поиске «Guanneiguanwai» пользователи могут искать ресторан «Guanneiguanwai», который рассматривается как слово. Что касается статуса пользователя, пользователь в Пекине и пользователь в Ухане ищут любую запись на Baidu или Taobao, и результаты, которые они получают, не будут слишком отличаться. Однако это будет совершенно по-другому в приложении Meituan, которое сильно связано с географическим положением. Например, при поиске «Башня желтого журавля» в Ухане пользователи могут искать билеты на достопримечательности, а при поиске «Башня желтого журавля» в Пекине пользователи, скорее всего, найдут ресторан.
Как совместить информацию на уровне языка с намерениями и статусом пользователя для выполнения семантического сопоставления?
Представьте некоторые важные функции бизнес-сценариев O2O за пределами краткого текста, интегрируйте их в разработанную структуру семантического сопоставления для глубокого обучения, направьте направление оптимизации модели семантического сопоставления с помощью данных о кликах/заказах и, наконец, примените обученную модель корреляции кликов. для смежных предприятий.
ClickNet, платформа схожести кликов, разработанная для сцены Meituan, представляет собой относительно легкую модель, учитывающую как эффекты, так и производительность, и ее можно успешно продвигать в онлайн-приложения, как показано на рис. 16.
Рис. 16 Модель ClickNet- уровень представления. Запрос и название компании представлены семантическими и бизнес-признаками соответственно, из которых семантический признак является ядром, а общее векторное представление короткого текста получается методом DNN/CNN/RNN/LSTM/GRU. Кроме того, будут введены функции, связанные с бизнесом, такие как информация о пользователях или компаниях, расстояние между пользователями и компаниями и обзоры компаний.
- обучающий слой. После многоуровневого полного соединения и нелинейного изменения прогнозируется оценка совпадения, и сеть настраивается в соответствии с оценкой и меткой, чтобы узнать взаимосвязь сопоставления кликов между запросом и названием компании.
Если вы хотите обучить семантическую модель с хорошим влиянием на структуру алгоритма ClickNet, вам необходимо выполнить настройку модели в соответствии со сценой. Прежде всего, мы много оптимизируем из обучающего корпуса, например, учитываем такие проблемы, как дисбаланс выборки и важность выборки. Во-вторых, при настройке параметров модели учитываются различные алгоритмы оптимизации, уровни размера сети и настройки гиперпараметров.
После обучения и оптимизации модели была запущена модель семантического сопоставления в системах отзыва и сортировки платформы Meituan для поиска, рекламы, отелей, туризма и т. д., что значительно улучшило такие показатели, как посещаемость, покупка/доход/количество кликов .
Подводя итог, можно сказать, что применение глубокого обучения в семантическом сопоставлении требует разработки соответствующей алгоритмической структуры для бизнес-сценариев. Кроме того, хотя алгоритмы глубокого обучения сокращают работу по разработке признаков, сложность настройки модели возрастает. Таким образом, проектирование структуры, обработку бизнес-корпуса и настройку параметров модели можно рассматривать вместе, чтобы получить модель с отличными эффектами и производительностью.
Модель ранжирования на основе глубокого обучения
Введение в модели сортировки
В поиске, рекламе, рекомендациях, ответах на вопросы и других системах, поскольку для отображения необходимо выбрать ограниченное количество вызванных наборов кандидатов, сортировка является важной частью. Как разработать это правило сортировки, чтобы улучшить конечный бизнес-эффект? Для этого требуются сложные модели сортировки. Например, сортировка в поисковой системе Meituan будет учитывать многомерную информацию, такую как историческое поведение пользователей, этот запрос, бизнес-информацию и т. д., извлекать и разрабатывать различные функции, а также получать модель сортировки посредством обучения массивным данным. Здесь дается только краткий обзор типов и эволюции моделей ранжирования с акцентом на использование глубокого обучения в моделях ранжирования.
Модель сортировки в основном подразделяется на три категории: точечная, парная и списочная, как показано на рисунке 17. Точечная классификация или регрессия одной выборки, то есть прогнозирование оценки
Эволюция моделей ранжирования глубокого обучения
При разработке моделей ранжирования в качестве моделей ранжирования уже давно используются нейронные сети, например, RankNet, предложенный Microsoft Research в 2005 году, использовал нейронные сети для парного обучения, в 2012 году Google представил метод использования глубокого обучения для выполнения CTR; и в то же время Baidu начала использовать глубокое обучение в качестве CTR в Phoenix Nest, который был запущен в 2013 году. Благодаря популярности глубокого обучения крупные компании и исследовательские институты пытаются применять глубокое обучение в сортировке, например, Google Wide & Deep, рекомендательная модель DNN YouTube и т. д. Представленный ранее DSSM также можно использовать для сортировки. Ниже кратко представлены модели ранжирования RankNet, Wide & Deep и YouTube.
RankNet
RankNet — это парная модель, которая также преобразуется в точечную для обработки. Например, в запросе Di и Dj имеют отношения частичного порядка. Первый более связан, чем второй. Затем характеристики этих двух используются в качестве входных данных нейронной сети. После слоя нелинейных изменений Loss подключен, чтобы узнать цель. Если Di более релевантен, чем Dj, то прогнозируемая вероятность выглядит следующим образом, где Si и Sj — баллы для соответствующего Doc.
При вычислении оценки используется нейронная сеть. Как показано на рисунке 18, входная функция каждого образца используется в качестве первого слоя, а оценка получается после нелинейного преобразования. После вычисления оценки пары выполняется обратное распространение для обновления параметров. Поскольку формула вероятности, которую RankNet должен предсказывать, является транзитивной, то есть вероятность частичного порядка Di и Dj может быть получена Di и Dk и Dk и Dj, поэтому RankNet изменяет вычислительную сложность с O (n²) на O (n ), в частности, доступны ссылки.
Рисунок 18 Схематическая диаграмма RankNetКонечно, последующие исследования показали, что RankNet стремится уменьшить количество ошибок в качестве цели оптимизации, а эффект измерения таких индикаторов, как NDCG (относительно местоположения соответствующих документов), не очень хорош, поэтому улучшенные модели, такие как LambdaRank появились позже. RankNet — типичная модель ранжирования нейронной сети, но в то время в отрасли использовалось множество простых линейных моделей, таких как логистическая регрессия.Линейная модель улучшала эффект за счет большого количества искусственно созданных функций, а модель обладала хорошей интерпретируемостью. и высокая производительность. Когда искусственные функции дизайна достигают определенного уровня, возникает узкое место, и глубокое обучение может изучать сложные взаимосвязи через исходные функции, что значительно сокращает работу по разработке функций. А высокопроизводительные вспомогательные процессоры, такие как GPU и FPGA, стали популярными, что способствовало обширным исследованиям глубоких нейронных сетей для моделей сортировки.
Wide&Deep
Google опубликовал документ «Широкое и глубокое обучение», и его представления можно использовать в рекомендациях. Например, рекомендация Google Apps использует это представление для достижения хороших результатов и публикует модель в TensorFlow. Общая структура модели Wide & Deep разделена на две части, Wide и Deep. Эти две части объединяются на самом внешнем уровне для изучения модели, как показано на рисунке 19. Все входные данные представляют собой разреженные функции, но функции делятся на два типа: один подходит для глубоких сетевых изменений Deep, подходит для функций, чувствительных ко времени или памяти, таких как статистические функции или позиции отображения и т. д.; другой может быть напрямую связан с самым внешним слоем. , подходит для функций, которые популярны, но требуют глубокой комбинированной выборки, например категории, типы и т. д. При оптимизации модели две части оптимизируются совместно: широкая часть использует FTRL, а глубокая использует алгоритм Adagrad. Таким образом, Wide и Deep могут различать различные типы функций, полностью использовать их соответствующие роли и иметь лучшую интерпретируемость.
На самом деле эту идею можно расширить. Например, широкое соединение находится не на самом внешнем уровне, а на определенном уровне, а некоторые уровни глубокого также могут быть связаны с самым внешним слоем, чтобы можно было полностью использовать плотную информацию, абстрагируемую разными уровнями. Подобно методу сетевого подключения Wide & Deep, такому как прямое подключение в модели NNLM в 2003 г. и модели RNNLM в 2010 г., комбинация мелких и глубоких слоев может значительно ускорить конвергенцию, а метод глубокого обучения Highway является похожий. . В настоящее время существует множество приложений Wide & Deep, например, в Alibaba есть относительно хорошие приложения.
Рис. 19 Структура модели Google Wide&DeepМодель ранжирования YouTube DNN
YouTube использует его, чтобы предсказать, как долго пользователи смотрят видео, что приводит к проблеме взвешенной логистической регрессии. Модель ранжирования DNN аналогична предыдущей работе, а ее сетевая структура представляет собой стандартную нейронную сеть с прямой связью, как показано на рисунке 20. Характеристики модели ранжирования DNN по-прежнему находятся во входных функциях. Хотя модели глубокого обучения имеют очень низкие требования к разработке признаков, многие данные необходимо просто обработать, прежде чем их можно будет добавить в модель. Функции на рисунке 20 разделены на множество областей, таких как языковой аспект, аспект видео, идентификаторы видео, которые пользователь просматривал в прошлом, а также статистика и нормализованные значения предыдущего времени просмотра. Дискретные значения обрабатываются Embedding и становятся непрерывными векторами, которые затем каскадируются для предсказания конечной метки после многослойных нелинейных изменений.
Рисунок 20. Структура модели ранжирования DNN на YouTubeКак видно из представленных выше моделей сортировки, связанных с глубоким обучением, типы данных, требуемые моделью сортировки, различны, и значение данных также отличается, что отличается от единой формы ввода в полях изображения и речи. Следовательно, в модели ранжирования очень важны выбор и представление входных функций, таких как непрерывные функции, обработка дискретных функций, история пользователей и различение функций документа. В сценарии Meituan при разработке модели ранжирования необходимо учитывать бизнес-характеристики, и было предпринято множество попыток представить входные характеристики.
Попытка модели сортировки глубокого обучения Meituan
Платформа ClickNet представлена в модели семантического сопоставления.Фактически, эта структура также может использоваться для сортировки.Отличие от семантического сопоставления в основном заключается в уровне представления, как показано на рисунке 21. Если ClickNet используется в качестве модели CTR для поиска, семантические функции Запроса и Заголовка на уровне представления являются лишь частью, а пользовательский запрос, поведение пользователя, бизнес-информация и кросс-комбинированные функции могут использоваться как бизнес-функции. и они подразделяются на разные типы в зависимости от типа объекта. Кроме того, если сцена не содержит семантического сопоставления, входные данные для модели могут иметь только бизнес-функции. Ниже приводится краткое объяснение попытки использовать ClickNet в качестве модели сортировки в Meituan.
Рис. 21 Структура модели ClickNetClickNet-v1
Первоначальное намерение дизайна ClickNet заключалось в том, что он используется в качестве модели сопоставления текста и добавляется к модели бизнес-ранга в качестве одномерной семантической функции для улучшения эффекта. Однако, согласно анализу данных после запуска, мы обнаружили, что ClickNet, который в основном представлен семантическими признаками и дополнен некоторыми бизнес-признаками, имеет лучшую производительность в системе сортировки. Мы внесли следующие улучшения в модель ранжирования.
- (1) Выбор бизнес-функций. Из существующих искусственных характеристик ранга бизнес-стороны выберите репрезентативные характеристики O2O, которые не подвергались расширенной обработке, такие как местоположение пользователя, местонахождение компании, историческая информация пользователя, звездный рейтинг бизнес-оценки, сезонность бизнеса и т. д.
- (2) Дискретизация признаков. Выбранные бизнес-функции дискретизируются, например дискретизация по интервалу функций.
- (3) Обработка образцов. В соответствии с бизнес-потребностями выборки положительных и отрицательных случаев, различные взвешивающие операции выполняются для кликов, заказов и платежей.
- (4) Слияние информации. Интеграция семантических функций и бизнес-функций контролируется введением Gate, а не только суммированием или каскадированием, а параметры Gate изучаются с помощью образцов.
После оптимизации ClickNet для целей бизнес-рейтинга эффект значительно улучшился, но модель по-прежнему фокусируется на семантических функциях. Могу ли я напрямую использовать ClickNet в качестве модели сортировки? Ответ положительный. Нужно только усугубить бизнес-функции, ослабить или удалить функции семантического представления, поэтому модифицированной моделью является ClickNet-v2.
ClickNet-v2
ClickNet-v2 в основном основан на бизнес-функциях с целью заменить модель бизнес-ранга, используя бизнес-функции в качестве входных данных уровня представления ClickNet и переходя в модель после дискретизации каждой функции. В отличие от ClickNet-v1, ClickNet-v2 имеет широкий спектр бизнес-функций и требует глубокого анализа и разработки модели.
Например, как рассматривать проблему предпочтения местоположения? Поскольку места размещения будут следовать друг за другом, пользователи не увидят более поздние показы, поэтому естественный рейтинг кликов будет низким. Одним из решений является подключение информации о местоположении непосредственно к самому внешнему слою без обработки комбинации признаков.
В качестве другого примера, после того как каждая бизнес-функция изменяется через несколько уровней нелинейности, достаточно ли комбинации функций? Одним из решений является использование полиномиального нелинейного преобразования, которое может хорошо комбинировать признаки из нескольких слоев.
Другой пример: лучше ли эффект от комбинации моделей? Одно из решений — попробовать каскад FM и ClickNet или бэггинг каждой модели.
Кроме того, существует множество ситуаций, связанных с бизнес-сценариями, таких как интерпретируемость модели, которые необходимо учитывать.
ClickNet основан на собственной платформе глубокого обучения Ginger, и скорость конвергенции и эффект очень идеальны. Давайте посмотрим на некоторые тесты задачи классификации, показанные на рисунке 22. По данным Higgs, ClickNet на основе Ginger на 34 тысячи пунктов выше, чем AUC на основе XGBoost, а ClickNet, реализованный с помощью TensorFlow, на 3 тысячи пунктов хуже, чем AUC на основе Ginger, и его скорость медленнее, чем у Ginger. Как показано на рис. 23, точность ClickNet выше, чем у линейной модели.
Рисунок 22. Сравнение эффекта классификации XGBoost и ClickNet в Хиггсе Рисунок 23 Сравнение ClickNet и линейных моделей в задачах классификацииСуммировать
Из-за своей сильной подгонки и низких требований к разработке признаков глубокое обучение имеет множество применений в текстовом поле. В этой главе в качестве примеров используются модели семантического сопоставления и сортировки, чтобы представить прогресс отрасли и применение сценариев Meituan соответственно.
В первой части представлены векторное пространство, латентный семантический анализ, тематическая модель и этапы глубокого обучения семантического сопоставления, а также основное внимание уделяется моделям серии Embedding и DSSM, в которых глубокое обучение применяется к семантическому сопоставлению, а также модели ClickNet, опробованной Meituan. Вторая часть представляет некоторый прогресс глубокого обучения в модели ранжирования и некоторые попытки Meituan. В дополнение к этим двум частям глубокое обучение проникло почти во все аспекты текста.У Meituan есть много попыток, таких как анализ настроений, система диалогов, генерация сводки, генерация ключевых слов и т. д., которые не будут представлены из-за нехватки места. Короче говоря, до когнитивного интеллекта еще далеко. Мы верим, что глубокое обучение скоро совершит большой прорыв в текстовой сфере.
использованная литература
[1] Томас Хофманн, «Вероятностный латентный семантический анализ», 1999.
[2] Дэвид М. Блей, Эндрю Ю. Нг, Майкл Джордан, «Скрытое распределение Дирихле», 2002 г.
[3] Хуанг, По-Сен и др. «Изучение глубоко структурированных семантических моделей для веб-поиска с использованием данных переходов» в CIKM 2013.
[4] Shen, Yelong, He, Xiaodong, Gao, Jianfeng и др. «Скрытая семантическая модель со структурой объединения сверток для поиска информации» в CIKM 2014.
[5] Х. Паланги и др. «Семантическое моделирование с долговременной памятью для поиска информации», 2015.
Профиль команды
Команда алгоритмов Meituan Dianping является «мозгом» всей технической группы Meituan Dianping, занимающейся поиском, рекомендацией, рекламой, интеллектуальным планированием, обработкой естественного языка, компьютерным зрением, робототехникой и технологиями без водителя. Помогая сотням миллионов активных пользователей Meituan Dianping улучшить пользовательский опыт, а также помогая миллионам продавцов в более чем 200 категориях, таких как рестораны, отели, брак, красота, родитель-ребенок и т. д., повысить эффективность работы. В настоящее время команда алгоритмов Meituan Dianping активно изучает и исследует области искусственного интеллекта, постоянно внедряет инновации и практикует, а также стремится применять самые передовые технологии, чтобы повысить качество обслуживания потребителей рекламы.