Применение глубокого обучения в прогнозировании CTR | Инвентаризация глубокой модели CTR

Google искусственный интеллект глубокое обучение продукт

Автор: Синь Джунбо

Подразделение 丨Tencent

Направление исследования 丨 оценка CTR, система рекомендаций

предисловие

Глубокое обучение совершило прорыв во многих областях, таких как НЛП, изображения и речь, благодаря своей мощной выразительной способности и гибкой сетевой структуре. В области рекламы в последние годы также было проведено много исследований по глубокому обучению в области прогнозирования рейтинга кликов (CTR), и за последние два года появилось не менее 20 методов.

В этой статье исследуются классические методы в академическом сообществе в области прогнозирования CTR в последние годы и сравниваются первоначальные намерения дизайна модели, а также преимущества и недостатки каждого из них.. Путем сравнения десяти различных моделей глубины CTR можно сделать вывод, что разные модели могут состоять из основных низкоуровневых компонентов. 

Определения переменных, встречающиеся в этой статье:

  • n: количество функций, общий размер «горячего» подключения всех функций.

  • f: количество полей функций, указывающее, сколько существует категорий функций.

  • k: размер слоя встраивания, в FM - размер скрытого вектора

  • H1: количество узлов в первом скрытом слое глубокой сети, H2 во втором слое и т. д.

модель глубокого обучения

1. Факторизатор-машина (FM)

Модель FM можно рассматривать как LR линейной части, а нелинейная комбинация признаков xixj пересекается, что выражается следующим образом:

где vi — скрытый вектор признака i-го измерения длины k

Рисунок 1: Структура модели FM

Рисунок 1 представляет FM с точки зрения нейронной сети.Его можно рассматривать как нижний слой как дискретный ввод с размерностью признаков n.После слоя встраивания линейная часть (LR) и нелинейная часть (часть пересечения признаков) слоя встраивания накапливаются и выводятся.

FM эквивалентен внедрению FM +, и параметры, которые необходимо изучить, следующие:

  • Часть LR: 1+n

  • встраиваемая часть: n*k

В дальнейшем FM будет служить базовым компонентом различных сетевых моделей.

2. Глубокая нейронная сеть (DNN)

Рисунок 2: Структура модели DNN

На рис. 2 показана классическая сеть DNN, структурно представляющая собой традиционный многослойный персептрон (MLP).

В сети MLP входом является исходное n-мерное пространство признаков, при условии, что количество узлов скрытого слоя в первом слое равно H1, во втором слое — H2 и так далее. На первом уровне сети параметр, который необходимо изучить, равен n*H1.

Для большинства моделей CTR система признаков чрезвычайно велика и разрежена. Типичная величина признака n колеблется от миллионов до десятков миллионов, сотен миллионов или даже выше. Такое крупномасштабное n используется в качестве входных данных сети при оценке CTR. промышленности неприемлемо в мировых сценариях.

Большинство структур сети CTR глубокого обучения, упомянутых ниже, вращаются вокруг того, как преобразовать многомерный дискретный вход DNN в низкоразмерный плотный вход через слой внедрения.

Изучаемые параметры DNN:

n*H1+H1*H2+H2*H3+H3*o

o — размер выходного слоя, равный 1 в оценке CTR.

DNN (далее именуемая MLP) также будет служить одним из основных компонентов различных моделей, описанных ниже.

3. Нейронные сети, поддерживаемые машиной факторизации (FNN)

В приведенной выше DNN исходным входом сети являются все исходные функции, размерность которых равна n, обычно более одного миллиона. Однако, несмотря на то, что размерность признака n огромна, если он принадлежит к полю (размерность f), к которому принадлежит каждый признак, обычно размерность f будет намного меньше.

Если есть способ представить каждую функцию с полем, к которому она принадлежит, исходный ввод будет значительно уменьшен.. На этой идее основаны нейронные сети, поддерживаемые машиной факторизации, или сокращенно FNN.

Рисунок 3: Структура модели FNN

FNN предполагает, что каждое поле имеет одно и только одно значение 1, а остальные равны 0. x является характеристикой исходного ввода, который является крупномасштабным дискретным и разреженным. Его можно разделить на n полей, в каждом поле только одно значение равно 1, а остальные 0 (т.е. одно горячее). 

Входные данные поля i могут быть представлены как x[start_i: end_i], а Wi является матрицей вложения поля i. z — вектор после вложения, представляющий собой k-мерный вектор, состоящий из первичного члена wi и квадратичного члена vi=(vi1,vi2,…vik), где k — размерность вектора квадратичного члена в FM. Последние l1 и l2 являются представлениями полносвязных слоев нейронной сети. 

Кроме,FNN также имеет следующие характеристики:

FM-параметры требуют предварительной подготовки 

Встраивание части FM необходимо предварительно обучить, поэтому FNN не является сквозной моделью. В других работах были попытки инициализировать вложение без ФМ, но при случайной инициализации либо скорость сходимости очень низкая, либо сходимость не получается. Заинтересованные студенты могут экспериментировать, чтобы проверить. 

Невозможно вписать функции низкого порядка

Вектор встраивания, полученный FM, напрямую связан и используется в качестве входных данных MLP для изучения высокоуровневого выражения признаков, а окончательный вывод DNN используется в качестве значения оценки CTR. Следовательно, FNN имеют ограниченное представление информации низкого порядка. 

Сильное предположение, что каждое поле имеет только одно ненулевое значение

FNN предполагает, что каждое поле имеет только одно ненулевое значение, и если это плотный необработанный ввод, FNN не имеет смысла. Например, для поля с несколькими ненулевыми значениями может быть несколько пользовательских тегов, вы обычно можете выполнять обработку среднего/суммы/максимального значения. 

По сути, FNN = LR+DEEP = LR + встраивание + MLP со следующими параметрами:

  • Часть LR: 1+n

  • встраиваемая часть: n*k

  • Часть MLP: f*k*H1+H1*H2+H2

Можно видеть, что по сравнению с DNN перед входом в часть MLP ввод сети уменьшается с n до f*k (f — количество полей от десятков до сотен, k — скрытая размерность вектора, обычно 0~100).

4. Продуктовая нейронная сеть (PNN)

Слой внедрения FNN напрямую связан и выводится в MLP для изучения высокоуровневых функций.

PNN, полное название нейронной сети, основанной на продукте, считает, что выражения кросс-функций, изученных после встраивания, является входом в MLP, недостаточно, и предлагает идею уровня продукта, которая основана на операции умножения для отражения DNN. сетевая структура перекрестных знаков, как показано на рисунке 4.

Рисунок 4: Структура модели PNN

По сравнению с сетью FNN отличие PNN состоит в том, что в середине есть дополнительный слой Product Layer. Слой Product Layer состоит из двух частей: левая z — это линейная часть слоя внедрения, а правая — пересечение признаков слоя внедрения.

За исключением разницы в уровне продукта, структура MLP PNN и FNN одинакова.. Идея этого продукта исходит из того факта, что при оценке CTR взаимосвязь между функциями считается скорее отношением «и», чем отношением «плюс». Например, сочетание мужчин и людей, любящих игры, скорее отражает значение пересечения признаков, чем последнее.

В соответствии с различными способами продукта его можно разделить на внутренний продукт (IPNN) и внешний продукт (OPNN), как показано на рисунке 5.

Рисунок 5: PNN (IPNN слева, OPNN справа)

Результат слоя продукта:

Нейронная сеть на основе внутреннего продукта

Термин разветвления IPNN использует внутренний продукт g(fi, fj) = . Есть f полей, и скалярный продукт вычисляется попарно для суммирования перекрестного члена Параметры части p равны f * (f-1)/2 (f - количество полей признака, N используется в оригинальная статья), а часть z линейной части имеет общее количество параметров f*k. Изучаемые параметры:

  • Часть FM: 1+ n + n*k

  • часть продукта: (f*k + f*(f-1)/2)*H1

  • Часть МЛП: H1*H2+H2*1

Внешняя нейронная сеть на основе продукта

OPNN использует матричное умножение для представления пересечения признаков, g(fi, fj)=fifit. Матричное умножение полей f выполняется попарно, а перекрестный член p имеет всего f*(f-1)/2*k*k параметров. В линейной части z есть параметры f*k. Изучаемые параметры:

  • Часть FM: 1+ n + n*k

  • часть продукта: (f*k + f*(f-1)/2*k*k)*H1

  • Часть МЛП: H1*H2+H2*1

5. Широкое и глубокое обучение (широкое и глубокое)

Два варианта структуры DNN FNN и PNN, представленные выше, вводятся в MLP после обработки ввода в слое внедрения, так что нейронная сеть может полностью изучить высокоуровневое выражение признака.Сильное, но выражение широкая часть отсутствует, и модельное выражение функций низкого порядка относительно ограничено.

Google предложил знаменитую структуру Wide & Deep в 2016 году для решения такой проблемы. Wide&Deep сочетает в себе преимущества модели Wide с преимуществами модели Deep.Структура сети показана на рисунке 6.Широкая часть – это модель LR, а глубокая часть – это модель DNN.

Рисунок 6: Структура модели Wide & Deep

В этой классической модели Wide & Deep Google предложил две концепции: Generalization и Memory. 

Память (память)

Преимущество широкой части заключается в обучении высокочастотной части выборки.Преимущество в том, что модель имеет хорошую память и может обучаться с небольшим количеством параметров для высокочастотных и младших признаков, появившихся в образец, недостатком является то, что способность модели к обобщению плохая.Прошлые особенности класса ID, способность к обучению модели оставляет желать лучшего. 

Обобщение

Преимуществом Deep является длинная часть обучающей выборки.Преимущество заключается в том, что он обладает сильной способностью к обобщению и может делать прогнозы для небольшого количества появившихся выборок или даже образцов, которые не появлялись ранее (ненулевые вектор вложения); недостатком является то, что модель имеет низкий порядок. Изучение признаков требует большего количества параметров, чтобы быть эквивалентным части эффекта Wide, а сильная способность к обобщению также может в некоторой степени привести к плохим случаям переобучения.

Кроме,Модель Wide & Deep также имеет следующие характеристики::

Инженерия искусственных признаков

Особенности части LR по-прежнему нуждаются в ручном проектировании, чтобы обеспечить хороший эффект. Поскольку часть LR напрямую используется как часть окончательного прогноза, если разработка признаков LR для широкой части не идеальна, это повлияет на точность всей модели Wide & Deep.

совместное обучение

Модель представляет собой сквозную структуру, а Широкая часть и Глубокая часть обучаются совместно.

Глубокая часть слоя Embedding занята одна

Часть LR используется непосредственно в качестве конечного вывода, поэтому слой внедрения уникален для части Deep.

Широкий и глубокий эквивалентен LR + встраивание + MLP, Параметры сети, которые необходимо изучить:

  • LR: 1+n

  • встраиваемая часть: n*k

  • Часть MLP: f*k*H1 + H1*H2 + H2*1

6. Нейронная сеть на основе машины факторизации (DeepFM)

Фреймворк Wide & Deep, предложенный Google, является мощным, но, поскольку часть Wide представляет собой модель LR, она по-прежнему требует ручного проектирования функций.

Wide & Deep предлагает рамочную идею для всей академии и промышленности. Основываясь на этой идее, команда Huawei Noah's Ark объединила функцию пересечения функций FM с LR и заменила часть LR части Wide & Deep на FM, чтобы избежать искусственного проектирования функций, поэтому с DeepFM структура сети показана на рисунке. 7 .

Рисунок 7: Структура модели DeepFM

По сравнению с частью LR Wide & Deep, DeepFM использует FM в качестве вывода части Wide, и часть FM показана на рисунке 8.

Рисунок 8: Структура FM-части в модели DeepFM

Кроме,DeepFM также имеет следующие характеристики:

низкоуровневое представление признаков

Широкий частично заменяет LR WDL и захватывает информацию о признаках младшего порядка лучше, чем FNN и PNN.

Встраивание общего доступа к слою

Слой встраивания части Wide & Deep должен быть разработан отдельно для части Deep; в DeepFM части FM и Deep разделяют слой встраивания, а параметры, полученные при обучении FM, используются как в качестве выходных данных для части Wide, так и для части Deep. ввод части DNN. 

окончательная тренировка

Веса встраивания и сети тренируются совместно без предварительного обучения и отдельного обучения.

DeepFM эквивалентен FM + встраивание + DNN:

  • Часть FM: 1+n

  • встраиваемая часть: n*k

  • Часть DNN: f*k*H1 + H1*H2+H1

После прохождения слоя встраивания часть FM напрямую не выводит никаких параметров для изучения, а размерность параметра, входящая в часть DNN, уменьшается с исходной размерности n до размерности f*k. 

7. Машины нейронной факторизации (NFM)

Предыдущий DeepFM напрямую объединяет FM-часть после слоя встраивания (размерность f*k, поля f, каждое поле представляет собой k-мерный вектор) в качестве входных данных DNN.

Машины нейронной факторизации, или сокращенно NFM, предлагают более простой и грубый подход., После слоя внедрения выполняется операция, называемая BI-взаимодействием, и каждое поле поэлементно и суммируется для пересечения признаков, входной масштаб MLP напрямую сжимается до размера k, а исходный размер n признака и поле признака Dimension f не имеет к этому никакого отношения.

Структура сети показана на рисунке 9:

Рисунок 9: Структура модели NFM

Здесь бумага рисует только глубокую часть, а широкая часть здесь опущена.

Би-взаимодействие звучит так, как будто название очень высокопарное, но операция очень проста: нужно умножить f полей поэлементно, чтобы получить f*(f-1)/2 векторов, затем суммировать их напрямую и, наконец, получить k-мерный вектор. вектор. Таким образом, у этого слоя нет параметров для изучения. 

NFM эквивалентен FM + встраивание + MLP, и параметры, которые необходимо изучить:

  • Часть FM: 1+n

  • встраиваемая часть: n*k

  • Часть MLP: k*H1 + H1*H2+…+Hl*1

NFM выполняет операцию двойного взаимодействия при встраивании для выполнения перекрестной обработки функций.Преимущество заключается в том, что параметры сети напрямую сжимаются от n до k (меньше, чем f * k FNN и DeepFM), что снижает сложность сети и может ускорить обучение сети Модель получена, но в то же время этот метод может привести и к большим потерям информации. 

8. Машины нейронной факторизации внимания (AFM)

FM в различных сетевых структурах, упомянутых выше, заставляет векторы различных признаков напрямую пересекаться при выполнении пересечения признаков.Предполагается, что вклад каждого пересечения признаков в оценку результата CTR одинаков. Это предположение на самом деле необоснованно: при пересечении разных признаков их вклад в результат предсказания CTR разный.

Машины нейронной факторизации внимания, или сокращенно модель NFM, используют механизм внимания, который в последние годы был успешным в области изображений, НЛП и речи.На основе упомянутого выше NFM вводится механизм внимания для решения этой проблемы..

Сетевая структура АСМ показана на рисунке 10. Как и в случае с NFM, здесь опущена широкая часть, а нарисована только глубокая часть структуры.

Рисунок 10: Структура модели АСМ

После слоя встраивания AFM это то же самое, что и NFM.После поэлементного произведения характеристик f полей получается f * (f-1)/2 перекрестных элементов.

В отличие от NFM, который непосредственно суммирует эти перекрестные элементы, AFM вводит Attention Net, который считает, что каждый из этих перекрестных элементов по-разному влияет на результат, например, важность веса xi и xj, который представлен aij.

С этой точки зрения АСМ фактически представляет собой процесс взвешенного накопления.. Вес aij части Attention Net не изучается напрямую, а выражается следующей формулой:

Здесь t представляет измерение скрытого слоя в сети внимания, а k такое же, как и раньше, размерность слоя внедрения. Таким образом, здесь нужно изучить 3 параметра, W, b, h, и количество параметров равно t*k+2*t.

После получения весов aij после взвешенного накопления скалярного произведения каждого признака получается k-мерный вектор, вводится простой вектор параметров pT и размерность k для обучения, и получается окончательный вывод АСМ вместе с широкой частью.

Подводя итог сетевой структуре AFM, она имеет следующие характеристики.:

Сеть внимания

Изюминкой AFM является создание веса элемента пересечения признаков через Attention Net, а затем непосредственное накопление исходных квадратичных элементов FM во взвешенное накопление.По сути, средневзвешенное значение, изучите перекрестную важность xjxj. 

Глубокая сеть

Нет, Дип, пешка. 

Элементы пересечения, изученные Attention Net, выводятся напрямую путем изучения некоторых параметров pt.Без выражения части DNN может возникнуть узкое место в дальнейшем изучении части функции высокого порядка. Кроме того, FFM фактически ввела понятие поля, чтобы узнать вес между полем и чертой.

Без АСМ глубокой части верхний предел оптимизированного FFM должен быть относительно близок. 

AFM эквивалентен FM + встраивание + внимание + MLP (один слой), и параметры, которые необходимо изучить:

  • Параметры части FM: 1+n

  • Параметры встраиваемой части: n*k

  • Некоторые параметры сети внимания: k*t + t*2

  • Параметры детали MLP: k*1

9. Глубокая и кросс-сеть (DCN)

Кроссовер функций — важный шаг в оценке CTR, но текущая структура сети в лучшем случае учится только вторичным кроссоверам.

Модель LR использует исходные искусственные перекрестные функции, FM автоматически изучает перекрестные признаки второго порядка xi и xj, а PNN использует метод произведения для кроссовера второго порядка.И NFM, и AFM также используют метод двойного взаимодействия. изучить кроссовер признаков второго порядка. Для пересечений объектов более высокого порядка остается изучить только Deep.

Для решения этой проблемы Google предложил в 2017 годуDeep & Cross Network, называемая моделью DCN, может произвольно комбинировать функции без добавления сетевых параметров. На рис. 11 показана структура DCN.

Рисунок 11: Структура модели DCN

Вся сеть состоит из 4 частей:

Слой встраивания и наложения

Причина, по которой мы не рассматриваем встраивание и стекирование отдельно, заключается в том, что во многих случаях процесс встраивания и стекирования неразделимы.

Для различных сетевых структур FM на основе XX, упомянутых выше, вектор v, изученный FM, может очень хорошо использоваться для встраивания.

Во многих реальных бизнес-структурах уже может быть извлечена информация о встроенных функциях, например, о внедрении функций изображения, внедрении текстовых функций, внедрении элементов и т. д., а также другая непрерывная информация о ценности, такая как возраст, уровень дохода и т. д. После того, как векторы встраивания складываются вместе, они используются в качестве входных данных последующей сетевой структуры.

Конечно, эта часть также может использовать упомянутый ранее FM для встраивания. Чтобы не противоречить исходной статье, здесь мы предполагаем, что размерность вектора X0 равна d (k в приведенной выше структуре сети), и подход этого уровня заключается в простом объединении различных векторов вложения.

Deep Layer Network

После уровня внедрения и стекирования сеть делится на два пути, один из которых представляет собой традиционную структуру DNN. Это выражается следующим образом:

Для упрощения понимания предполагается, что в каждом слое сети имеется m параметров, а всего слоев Ld.Входной слой имеет параметры d*m (d — размерность вектора x0), поскольку он подключен к предыдущему слою. Последующий уровень Ld-1, каждый уровень требует параметров m * (m + 1), поэтому общие параметры, которые необходимо изучить, равны d * m + m * (m + 1) * (Ld-1) . Конечным выходом также является m-мерный вектор Hl2.

Межуровневая сеть

Обратный путь после ввода Embedded and Stacking Layer является ключевой работой DCN. Предполагая, что в сети есть уровни L1, отношение между каждым уровнем и предыдущим уровнем может быть представлено следующим отношением:

Можно видеть, что f — это функция, которую нужно подобрать, а xl — сетевой вход предыдущего слоя. Изучаемыми параметрами являются wl и bl, поскольку размерность xl равна d, вход xl+1 сети текущего уровня также является d-мерным, а параметры wl и bl, которые необходимо изучить, также являются d-мерными векторами.

Таким образом, каждый слой имеет 2*d параметров (w и b) для изучения, а структура сети выглядит следующим образом:

После межуровневой сети слоя Lc выход слоя Lc в последнем слое слоя представляет собой d-мерный вектор Lc2.

Combination Output Layer 

После вывода XL1 (размерность d) кросс-сети и ввода вектора (размерность m) после глубокой сети происходит прямое преобразование, которое становится вектором d+m, и, наконец, устанавливается модель LR и параметры обучения. равны 1+d+m. 

Подводя итог, кросс-сеть, представленная DCN, теоретически может выражать любую комбинацию высокого порядка, в то время как каждый уровень сохраняет комбинацию низкого порядка, а векторизация параметров также определяет сложность модели. 

DCN эквивалентен встраиванию + перекрестному + глубокому + LR:

  • Встраивание части параметров: по ситуации

  • Параметры кросс-части: 2*d*Lc (Lc — количество слоев кросс-сети)

  • Параметры глубокой части: d*(m+1)+m*(m+1)*(Ld-1), Ld — количество слоев глубокой сети, m — сетевой параметр каждого слоя

  • Параметры части LR: 1+d+m

10. Сеть глубокого интереса (DIN)

Наконец, представьте предложение Али в 2017 году.Deep Interest Network, называемая моделью DIN. В отличие от алгебраических парадигм низкого порядка, представленных вышеупомянутыми FNN, PNN и т. д., ядро ​​DIN основано на неотъемлемых характеристиках данных, и вводится парадигма обучения более высокого порядка.

Интересы пользователей разнообразны, с математической точки зрения интересы пользователей имеют мультимодальное распределение в пространстве интересов. При прогнозировании CTR многие параметры интересов, представленные внедрением пользователя, не связаны с тем, был ли нажат текущий элемент или нет, а связаны только с локальной информацией, представляющей интерес для пользователя.

Поэтому, вдохновленный механизмом внимания, DIN выполняет операцию единицы действия после слоя встраивания, изучает распределение интересов пользователя и затем вводит его в DNN.Структура сети показана на рисунке 12:

Рисунок 12: Структура модели DIN

DIN выполняет операции по встраиванию пользовательских функций и особенностей пользовательского исторического поведения в качестве представления интересов пользователя, а затем присваивает различные веса каждому представлению интересов через сеть внимания. 

  • Vu: представляет конечный вектор пользователя.

  • Vi: представляет вектор интереса пользователя (shop_id, good_id..)

  • Va: представляет вектор представления рекламы.

  • Wi: для рекламных объявлений-кандидатов вес интереса в механизме внимания

Можно видеть, что для каждого вектора интереса Vi пользователя вес интереса Vi будет изучен как окончательное представление пользователя.

напиши в конце

Ранее была представлена ​​сетевая структура из 10 моделей глубокого обучения, которую можно резюмировать следующим образом:

Различные модели глубины CTR имеют разную структуру, но на самом деле большинство из них можно выразить в следующей общей парадигме:

input->embedding: Сопоставьте идентификаторы крупномасштабных разреженных объектов с низкоразмерными плотными векторами встраивания, используя операцию встраивания. 

вектор слоя встраивания: такие операции, как concat, sum, объединение средних значений и т. д. Большинство моделей CTR модифицируются на этом уровне.

embedding->output: общая полносвязная структура DNN, масштаб ввода уменьшен с n измерений до k * f измерений или даже ниже.

Рисунок 13: Общая структура модели глубокого обучения

Среди них слияние векторного слоя встраивания является местом, где модель глубокого обучения преобразуется больше всего.Этот слой является входным слоем в модель глубокого обучения.Качество слияния встраивания будет влиять на обучение модели DNN.

Лично, как правило, следующие операции 4. Конечно, в будущем может быть все больше и больше других структур деформации.

Рис. 14. Встраивание метода слияния слоев

Кроме того, в части DNN в отрасли есть много современных или хитрых методов, которые можно попробовать в ней, например, отсев, в би-взаимодействии NFM можно попробовать отсев кросс- возможность расширения модели с определенной вероятностью, способность к обобщению и т. д.

Эпилог

В отличие от изображения, речи и других полей с непрерывными и плотными данными и хорошей локальной корреляцией в пространстве и времени, большинство входных данных в предсказании CTR являются дискретными и многомерными, а признаки также разбросаны по небольшому количеству различных по полю .

Чтобы решить такую ​​модель глубокого обучения, первая проблема, с которой столкнулись, заключается в том, как использовать слой внедрения, чтобы уменьшить размерность входного вектора для планирования плотного непрерывного вектора, как описано в этой статье, использовать FM для предварительного обучения или совместно обучать с моделью или вектором признаков встраивания, извлеченным из других источников данных для выполнения concat.

Во-вторых, в войне между широким и глубоким, после того как Google предложил структуру модели Wide & Deep, эта система в основном стала базовой структурой в отрасли. Как бы ни модифицировалась Широкая часть или Глубокая, на самом деле это комбинация каких-то общих компонентов, или модификация Широкая, или модификация Плача, или модификация в процессе соединения Широкая и Глубокая. 

Есть бесконечные изменения в области оценки CTR, но это верно. Различные модели по сути являются комбинацией базовых компонентов. Как выбрать подходящее модельное приложение в сочетании с вашим собственным бизнесом, данными и сценариями приложений, может быть реальным трудность. .

использованная литература

[1] Машины факторизации

[2] Широкое и глубокое обучение для рекомендательных систем

[3] Глубокое обучение на многополевых категориальных данных: пример прогнозирования реакции пользователя

[4] Нейронные сети на основе продукта для прогнозирования реакции пользователя

[5] DeepFM: нейронная сеть на основе машины факторизации для прогнозирования CTR

[6] Машины нейронной факторизации для разреженной предиктивной аналитики

[7] Машины факторизации внимания: изучение веса взаимодействий функций с помощью сетей внимания

[8] Deep & Cross Network для предсказания кликов по рекламе

[9] Deep Interest Network for Click-Through Rate Prediction

    #Набор авторов #

    Пусть ваш текст увидит много-много людей, если мы вам нравимся, то лучше присоединяйтесь к нам

     

    Я пасхальное яйцо

    Разблокируйте новые функции: популярные рекомендации по работе!

    Апплет PaperWeekly обновлен

    arXiv сегодня √ Думаю, вам понравится √Популярные вакансии

    Найти постоянную стажировку не проблема

     

    метод разблокировки

    1. Определите приведенный ниже QR-код, чтобы открыть апплет.

    2. Войдите в систему с учетной записью сообщества PaperWeekly.

    3. Все функции можно разблокировать после входа в систему.

    Объявление о вакансии

    Добавьте, пожалуйста, маленького помощника WeChat (pwbot02) для консультации

     

    Нажмите и удерживайте, чтобы определить QR-код и использовать апплет.

    Зарегистрировать аккаунтpaperweek.ly

    О PaperWeekly

    PaperWeekly — это академическая платформа для рекомендаций, интерпретации, обсуждения и публикации передовых статей об искусственном интеллекте. Если вы занимаетесь исследованиями или занимаетесь ИИ, нажмите на фон официальной учетной записи."Коммуникационная группа", ассистент перенесет вас в коммуникационную группу PaperWeekly.

    ▽ Нажмите | Прочитать исходный текст | Введите автор знает колонку