Эволюция и сравнение основных моделей прогнозирования CTR

машинное обучение алгоритм

Изучение и прогнозирование отзывов пользователей играет чрезвычайно важную роль в таких областях, как персональные рекомендации, поиск информации и онлайн-реклама. В этих областях поведение обратной связи с пользователями включает клики, избранное, покупки и т. д. В этой статье прогноз рейтинга кликов (CTR) используется в качестве примера, чтобы представить широко используемые модели прогнозирования CTR, пытаясь выяснить корреляцию и закон эволюции между ними.

Характеристики данных

В области электронной коммерции исходные данные характеристик модели прогнозирования CTR обычно включают несколько категорий, например [день недели=вторник, пол=мужской, город=Лондон, CategoryId=16], и эти исходные характеристики обычно кодируются в одногорячее кодирование (одногорячее кодирование).Метод кодирования преобразуется в многомерный разреженный двоичный вектор, а векторы кодирования, соответствующие нескольким доменам (категориям), связываются вместе, чтобы сформировать окончательный вектор признаков.

Многомерный,редкий,Несколько полейявляется типичной характеристикой входных данных признаков в модель прогнозирования CTR. Все модели, представленные ниже, предполагают, что данные признаков удовлетворяют вышеуказанным правилам, а те модели, которые подходят только для небольших объемов данных, не будут представлены.

Встраивание представления

Поскольку большинство моделей, которые будут представлены, в той или иной степени используют встраивающее представление функций, вот краткое введение.

Представление встраивания, также известное как распределенное представление, возникло из метода представления слова в корпусе с помощью языковой модели нейронной сети (NNLM). По сравнению с многомерным разреженным представлением горячего кодирования метод, основанный на встраивании, изучает низкоразмерный плотный вещественный вектор (низкоразмерное плотное вложение). Подобно методу хеширования, метод встраивания сжимает разреженные данные с большим количеством цифр в пространство с меньшим количеством цифр, и конфликты неизбежны; однако встраивание изучает семантические представления сходных тем, и можно надеяться на «конфликт» элементов. что-то вроде мягкой кластеризации, чтобы решить проблему разреженности.

Инструмент Google word2vec с открытым исходным кодом делает представление встраивания широко известным. Встраивание означает, что модели нейронных сетей обычно используются для обучения, конечно, есть и другие методы обучения, такие как матричная факторизация (MF), машина факторизации (FM) и т. д. Вот подробное введение в метод обучения встраиванию на основе нейронной сети.

Обычно векторы встраивания не изучаются с помощью специальной задачи, а являются вспомогательными результатами других задач обучения. Как показано на рисунке ниже, входной слой сети представляет собой вектор с горячим кодированием идентификаторов объектов (категориальные признаки). Слой, подключенный к входному слою, является слоем внедрения, и два слоя соединены полным соединением. Количество нейронов в слое Embedding равно размерности вектора Embedding (m). Матрица весов, соответствующая связи между входным слоем и слоем внедренияM(n \times m), что соответствуетnобъектов вводаmразмерный вектор вложения. Так как только один элемент one-hot вектора имеет одновременно значение 1, а остальные значения равны 0, то для текущей выборки учитываются только веса на ребрах, соединенных с входным узлом со значением 1 будут обновлены, то есть объекты с разными идентификаторами. В процессе обучения выборки затрагивается только представление внедрения, соответствующее объекту. Предположим, что нижний индекс в горячем векторе идентификатора объекта равенiравен 1, то вектор вложения объекта представляет собой весовую матрицуMПервыйiРяд.

Общие модели

1. LR

Модель LR представляет собой обобщенную линейную модель, по функциональной форме модель LR можно рассматривать как модель нейронной сети (модель персептрона) без скрытого слоя.
y=\frac{1}{1+e^{-(wx+b)}}

Модель LR всегда была эталонной моделью для задач оценки CTR и широко используется благодаря своей простоте, легкому распараллеливанию и хорошей интерпретируемости. Однако из-за ограничений самой линейной модели она не может иметь дело с нелинейной взаимосвязью между функциями и целями, поэтому эффект модели сильно зависит от опыта разработки функций инженерами-алгоритмами.

Чтобы линейная модель изучила нелинейную связь между исходными функциями и подходящей целью, обычно необходимо выполнить некоторые нелинейные преобразования исходных функций. Обычно используемые методы преобразования включают: непрерывную дискретизацию признаков, пересечение между признаками и т. д.

Метод дискретизации непрерывных признаков, как правило, заключается в разделении диапазона исходного непрерывного значения на несколько интервалов, таких как деление на равные частоты или деление на равные интервалы, Лучший метод деления — использовать обучение с учителем для обучения простому решению с одной функцией. Модель пня использует индекс прироста информации для определения точки разделения. После того, как функция разделена на интервалы, цель на каждом интервале (y) могут быть разными, так что новые признаки, соответствующие каждому интервалу, могут иметь независимые весовые коэффициенты после обучения модели. Дискретизация признаков эквивалентна превращению линейной функции в кусочно-линейную, тем самым вводя нелинейную структуру. Например, модели поведения пользователей разных возрастных групп могут быть разными, но это не значит, что чем старше возраст, тем больше вклад в подгонку цели (например, кликрейта), поэтому не подходит непосредственно использовать возраст в качестве значения признака для обучения. После разделения возраста на группы модель может изучить различные модели предпочтений пользователей разных возрастных групп. Другие преимущества дискретизации включают лучшую устойчивость к шуму в данных (выбросы также попадают в разделенный интервал, а размер самих выбросов не будет чрезмерно влиять на результаты прогнозирования модели); дискретизация также делает модель более стабильной, небольшое изменение само собственное значение (только если оно все еще попадает в исходный интервал деления) не приведет к изменению предсказанного моделью значения.

Пересечение признаков — еще один широко используемый метод проектирования признаков для введения нелинейности. Обычно оценка CTR включает в себя несколько функций, таких как пользователь, элемент и контекст.Часто вклад одной функции в определение цели незначителен, в то время как комбинация различных типов функций может внести значительный вклад в определение цели. Например, пересечение пола пользователя и категории продукта может описывать такие знания, как «пользователи-женщины предпочитают категории красоты» и «пользователи-мужчины предпочитают категории мужской одежды». Пересечение признаков — это способ для инженеров-алгоритмов включить знания предметной области в модели.

Недостатком модели LR является то, что проектирование признаков требует много энергии, и даже опытным инженерам трудно исчерпать все комбинации перекрестных признаков.

2. LR + GBDT

Поскольку проектирование признаков сложно, можно ли это сделать автоматически? Каскад модели дает идею, типичным примером является проблема комбинации функций модели LR, решаемая с помощью модели GBDT (Gradient Boost Decision Tree), представленной в статье Facebook 2014 года..Идея очень проста.Разработка функций разделена на две части.Одна часть функций используется для обучения модели GBDT.Номер конечного узла каждого дерева модели GBDT используется как новая функция,добавляемая к исходной набор функций, а затем модель LR используется для обучения окончательной модели.

Модель GBDT может изучать комбинации нелинейных признаков более высокого порядка, соответствующие пути в дереве (представленному листовыми узлами). Обычно некоторые непрерывные признаки и категориальные признаки с небольшим пространством значений выбрасываются в модель GBDT; идентификаторы признаков с большим пространством (например, идентификаторы товаров) оставляются в модели LR для обучения, что может не только упорядочивайте комбинации функций, но также используйте линейные модели.Преимущество заключается в простоте обработки крупномасштабных разреженных данных.

3. ФМ, ФММ

Машины факторизации (FM) извлекают комбинации признаков через скрытое переменное внутреннее произведение между парами признаков, и его функциональная форма выглядит следующим образом:
y=w_0 + \sum_{i=1}^{n}w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^n \langle v_i,v_j \rangle x_i x_j

Как FM, так и древовидные модели (например, GBDT) способны автоматически изучать комбинации пересечений объектов. Модели на основе дерева подходят для непрерывных разреженных данных от низкого до среднего и легко изучаются для комбинаций высокого порядка. Однако древовидная модель не подходит для изучения комбинации признаков очень разреженных данных.С одной стороны, размерность признаков очень разреженных данных, как правило, очень высока.В настоящее время эффективность обучения древовидной модели очень высока. низким или даже невозможным; с другой стороны, древовидная модель не может обучаться Комбинация признаков, которые редко присутствуют или отсутствуют в обучающих данных. Напротив, модель FM может изучать комбинации признаков, которые редко присутствуют или отсутствуют в обучающих данных, путем извлечения комбинаций признаков через внутренний продукт скрытых векторов. Например, особенностиiи особенностиjникогда не сопоставляются в тренировочных данных, но функцииiчасто и характерноpПоставляется парами, особенностиjтакже часто и характерноpпоявляются парами и, таким образом, входят в модель FMiи особенностиjТакже будет некоторая корреляция. После всех включенных функцийiобучающие образцы заставят модель обновить функцииiскрытый векторv_i, так же, все включено функцииjОбразцы также заставляют модель обновлять скрытый векторv_j,так\langle v_i,v_j \rangleвряд ли будет 0.

В рекомендательной системе метод матричной факторизации (MF) обычно используется для разложения матрицы рейтинга User-Item на произведение двух матриц низкого ранга, которые представляют собой наборы скрытых векторов User и Item соответственно. Интерес пользователя к невидимым элементам предсказывается скалярным произведением скрытых векторов пользователя и элемента. Матричная декомпозиция также является методом создания вложенных представлений.Схема примера выглядит следующим образом:

Метод MF можно рассматривать как частный случай модели FM, то есть MF можно рассматривать как модель FM только с функциями userId и itemId. Преимущество FM заключается в том, что он может включать в эту структуру больше функций и может использовать функции как первого, так и второго порядка, в то время как MF может использовать только функции второго порядка двух объектов.

В задаче бинарной классификации при использовании функции потерь LogLoss модель FM можно рассматривать как слияние модели LR и метода MF, как показано на следующем рисунке:

Модель FFM (Field-aware Factorization Machine) является расширением модели FM.Вводя понятие поля, FFM приписывает свойства той же природы одному и тому же полю. Например, три функции «День = 26/11/15», «День = 1/7/14» и «День = 19/2/15» представляют даты и могут быть помещены в одно и то же поле. Точно так же в этом же поле можно разместить и код категории товара последнего уровня. Проще говоря, числовые характеристики, сгенерированные кодированием One-Hot одной и той же категориальной характеристики, могут быть помещены в одно и то же поле, включая пол пользователя, профессию, предпочтение категории и т. д. В FFM каждая функция измеренияx_i , для каждого поля других признаков f_j, выучит скрытый векторv_{i,f_j}. Следовательно, скрытый вектор связан не только с признаком, но и с полем. гипотетическая выборкаnособенности принадлежатfполе, то квадратичный член FFM имеетnfскрытый вектор.
y=w_0 + \sum_{i=1}^{n}w_i x_i + \sum_{i=1}^{n}\sum_{j=i+1}^n \langle v_{i,f_j},v_{j,f_i} \rangle x_i x_j

FM можно рассматривать как частный случай FFM.В модели FM существует только один скрытый вектор каждого признака размерности, то есть FM является моделью FFM, когда все признаки относятся к одному полю.

4. Смешанная логистическая регрессия (MLR)

Алгоритм MLR — это модель оценки кликабельности рекламы, предложенная и использованная компанией alibaba в 2012 году и опубликованная в 2017 году. Модель MLR является обобщением линейной модели LR, в которой используется кусочно-линейный способ подбора данных. Основная идея состоит в том, чтобы принять стратегию «разделяй и властвуй»: если классификационное пространство само по себе нелинейно, разделить пространство на несколько областей подходящим образом, и каждую область можно подобрать линейным образом, и, наконец, результат MLR становится больше Средневзвешенное значение прогнозов для субрегионов. Как показано на рисунке (C) ниже, это результат, полученный моделью MLR с использованием 4 сегментов.

f(x)=\sum_{i=1}^m \pi_i(x,\mu)\cdot \eta_i(x,w)=\sum_{i=1}^m \frac{e^{\mu_i^T x}}{\sum_{j=1}^m e^{\mu_j^T x}} \cdot \frac{1}{1+e^{-w^Tx}}

Приведенная выше формула является целевой функцией MLR, гдеmколичество осколков (когдаm=1, MLR вырождается в модель LR);\pi_i(x,\mu)= \frac{e^{\mu_i^T x}}{\sum_{j=1}^m e^{\mu_j^T x}}— параметр кластеризации, определяющий разделение шардового пространства, то есть вероятность того, что образец принадлежит конкретному шарду;\eta_i(x,w) = \frac{1}{1+e^{-w^Tx}}— параметр классификации, определяющий предсказание в пространстве осколков;\muиwявляются параметрами, которые необходимо изучить. Прогнозируемое значение окончательной модели — это ожидание прогнозируемого значения подмоделей, соответствующих всем осколкам.

Модель MLR исследует и реализует нелинейную подгонку на крупномасштабных разреженных данных.Когда количество осколков достаточно велико, она обладает сильной нелинейной способностью;в то же время сложность модели контролируется и имеет хорошую способность к обобщению;Автоматический выбор признаков Возможности моделей LR.

Идея модели MLR очень проста, трудность и проблема в том, что целевая функция модели MLR невыпуклая и негладкая, что делает традиционный алгоритм градиентного спуска непригодным. Дополнительные сведения см. в документе: Gai et al. «Изучение кусочно-линейных моделей на основе крупномасштабных данных для прогнозирования кликов по объявлениям».

С другой стороны, модель MLR можно рассматривать как нейронную сеть с одним скрытым слоем. Как показано ниже,xЭто крупномасштабные разреженные входные данные.Первый шаг модели MLR - выполнить операцию встраивания, которая разделена на две части: одна называется встраиванием кластеризации (зеленый), а другая - встраивание классификации (красный). Обе проекции отбрасываются в низкоразмерное пространство размерностьюm, — количество осколков в модели MLR. После того, как проекция завершена, можно сделать прогноз с помощью очень простой операции внутреннего продукта (Inner Product) и получить выходные данные.y.

5. WDL (широкое и глубокое обучение)

Широкая модель, такая как LR, изучает прямую корреляцию между функциями и целями и фокусируется на запоминании.Например, в рекомендательной системе широкая модель дает рекомендации для элементов, которые непосредственно связаны с историческим поведением пользователя. В такой модели отсутствует способность описывать отношения между признаками, например, модель не может воспринимать, что «картошка» и «картошка» — это одно и то же, и нельзя использовать комбинацию признаков, отсутствующую в обучающей выборке. , модель может узнать определенный тип пользователей, которым нравится «картошка», но считается, что этот тип пользователей не любит «картошку».

WDL — это модель, предложенная Google в статье 2016 года, которая умело сочетает традиционную разработку признаков с глубокими моделями. Структура модели следующая:

WDL разделен на две части, широкую и глубокую.Нет никакой разницы между широкой частью и моделью LR; глубокая часть заключается в том, чтобы сначала встроить различные функции типа ID, а затем подключить полностью подключенный MLP (многоуровневое восприятие) к слой встраивания.машина) для изучения кросс-комбинационных взаимосвязей между функциями более высокого порядка. Благодаря внедрению механизма Embedding WDL обладает более сильными возможностями обобщения, чем чистая широкая модель.

6. FNN (Factorization-machine supported Neural Network)

В дополнение к модели нейронной сети модель FM также можно использовать для изучения скрытого вектора (представления встраивания) функции, поэтому естественная идея состоит в том, чтобы сначала использовать модель FM для изучения представления встраивания функции, а затем используйте изученный вектор встраивания вместо исходной функции в качестве функций окончательной модели. Эта идея похожа на LR + GBDT, Весь процесс обучения разделен на два этапа: на первом этапе используется модель для разработки признаков, на втором этапе используются новые функции, изученные на первом этапе, для обучения окончательной модели.

Модель FNN состоит в том, чтобы инициализировать MLP с помощью вектора встраивания, изученного моделью FM, а затем завершить окончательное обучение с помощью MLP.Структура модели выглядит следующим образом:

7. PNN (продуктовые нейронные сети)

Операция добавления узла в MLP может быть не в состоянии эффективно исследовать взаимодействие между различными типами данных.Хотя MLP теоретически может аппроксимировать любую функцию с произвольной точностью, чем более обобщенное выражение, тем труднее подогнать конкретный шаблон к конкретному. данные. . PNN в основном добавляет внутренний/внешний слой продукта в сеть глубокого обучения для моделирования взаимосвязи между функциями.

Вес между Embedding Layer и Product Layer постоянен и равен 1, который не обновляется в процессе обучения. Узел Product Layer разделен на две части, одна частьzвектор, другая частьpвектор.zРазмерность вектора и количество Полей во входном слое (N)такой же,z=(f_1,f_2,f_3,\cdots,f_N).pЗначение каждого элемента вектора генерируется вектором признаков встраивающего слоя попарно и после операции Product,p=\{g(f_i,f_j)\},i=1 \cdots N, j=i \cdots N,следовательноpРазмерность вектораN*(N-1). здесьf_iполеiвектор вложения,f_i=W_0^i x[start_i : end_i]xвходной вектор,x[start_i : end_i]полеiГоряче закодированный вектор .

Здесь упоминаются два типа операций продукта: внутренний продукт и внешний продукт; соответствующие сетевые структуры - IPNN и OPNN соответственно. Разница между ними заключается в следующем.

В IPNN из-за уровня продуктаpВектор генерируется путем объединения полей, поэтому расширение размерности очень велико, что даетl_1Вычисления узлов уровня оказывают большое давление. Вдохновленная FM, эта большая матрица может быть разложена на маленькую матрицу, а ее транспонирование умножено, чтобы представить ее в низкоразмерном непрерывном векторном пространстве, чтобы уменьшить сложность модели:

W_p^n \odot p = \sum_{i=1}^N \sum_{j=1}^N \theta_i^n \theta_j^n \langle f_i,f_j \rangle = \langle \sum_{i=1}^N \delta_i^n, \sum_{i=1}^N \delta_i^n \rangle

В OPNN операция внешнего продукта приносит больше сетевых параметров. Чтобы уменьшить объем вычислений и упростить изучение модели, для уменьшения сложности используется метод поэлементной суперпозиции нескольких матриц внешнего продукта. следующим образом:p=\sum_{i=1}^N \sum_{j=1}^N f_i f_j^T=f_{\Sigma}(f_{\Sigma})^T, f_{\Sigma}=\sum_{j=1}^N f_i.

8. DeepFM

Глубокие нейронные сети обладают большим потенциалом для изучения взаимосвязей сложных признаков. Также существует множество моделей прогнозирования CTR на основе CNN и RNN. Тем не менее, модель на основе CNN больше склонна извлекать взаимосвязь комбинации смежных функций, а модель на основе RNN больше подходит для данных о кликах, зависящих от последовательности.

Модель FNN сначала предварительно обучает FM, а затем применяет обученный FM к DNN. Уровень продукта добавляется между уровнем внедрения и полностью подключенным уровнем сети PNN, чтобы завершить комбинацию функций. Подобно другим существующим моделям глубокого обучения, PNN и FNN трудно эффективно извлекать комбинации признаков низкого уровня. Модель WDL смешивает модель ширины и модель глубины, но ввод модели ширины по-прежнему зависит от разработки признаков.

Вышеупомянутые модели либо ориентированы на извлечение признаков низкого или высокого порядка, либо полагаются на разработку признаков. Модель DeepFM может изучать комбинированные отношения признаков разных порядков сквозным образом и не требует дополнительной разработки признаков.

Структура DeepFM включает в себя часть машины факторизации и часть глубокой нейронной сети, которые соответственно отвечают за извлечение признаков низкого порядка и извлечение признаков высокого порядка. Его структура выглядит следующим образом:

Вес ссылки, указанный красной стрелкой на рисунке выше, является константой 1 (вес-1 соединение), которая не обновляется в процессе обучения.Можно считать, что значение узла напрямую копируется на следующий слой, и затем участвует в работе следующего слоя узлов.

В отличие от модели Wide&Deep, DeepFM использует одни и те же векторы ввода и встраивания. В широкой и глубокой модели длина входного вектора также значительно увеличивается из-за включения созданных вручную попарных групп признаков в широкую часть, что также увеличивает сложность.

DeepFM состоит из двух частей: части нейронной сети и части машины факторизации. Обе части используют один и тот же вход. для данной функцииi,векторw_iИспользуется для характеристики важности признаков первого порядка, скрытых переменныхV_iИспользуется для представления взаимодействия этой функции с другими функциями. В разделе ФМV_iОн используется для характеристики признаков второго порядка и используется для построения признаков более высокого порядка в части нейронной сети. Все параметры участвуют в обучении вместе. Результат предсказания DeepFM можно записать как\hat{y}=sigmoid(y_{FM}+y_{DNN})
в\hat{y}∈(0,1)прогнозируемый CTR,y_{FM}иy_{DNN}Точки - это часть FM и часть DNN.

Подробная структура части FM выглядит следующим образом:

Выход FM выглядит следующим образом:
y_{FM}=\langle w,x \rangle + \sum_{i=1}^d \sum_{j=i+1}^d \langle V_i,V_j \rangle x_i x_j
вw∈R^d,V_i∈R^k. Дополнительная часть отражает важность признаков первого порядка, а часть внутреннего продукта отражает влияние признаков второго порядка.

Подробная часть подробно описана ниже:

Глубокая часть представляет собой нейронную сеть с прямой связью. В отличие от ввода, такого как изображение или речь, ввод для изображения и речи обычно является непрерывным и плотным, тогда как ввод для CTR обычно крайне разреженный. Следовательно, необходимо спроектировать определенную сетевую структуру, которая реализуется путем введения слоя внедрения перед первым скрытым слоем для сжатия входного вектора в низкоразмерный плотный вектор.

y_{DNN}=\sigma(W^{H+1} \cdot a^H + b^{H+1})

вH количество скрытых слоев.

9. DIN

DIN — это модель глубокого обучения, предложенная в 17-летней статье Али.Модель основана на двух наблюдениях за историческими данными о поведении пользователей: 1. Разнообразие, пользователь может интересоваться несколькими категориями вещей, 2. Частичное соответствие, только часть исторические данные полезны для текущего предсказания кликов. Например, когда система рекомендует пользователю плавательные очки, это будет связано с купальным костюмом, на который нажал пользователь, но не имеет ничего общего с книгой, которую пользователь купил. . Поэтому DIN разработал структуру внимания, чтобы частично сопоставить исторические данные пользователя и рекламу, которую нужно оценить, тем самым получив весовое значение для взвешенной суммы вложений.

Ввод модели DIN разделен на 2 части: пользовательские характеристики и характеристики рекламы (продукта). Пользовательские функции состоят из последовательностей различных идентификаторов сущностей исторического поведения пользователя. Сеть внимания (то есть блок активации на рисунке) вводится при расчете представления пользователя. DIN встраивает пользовательские функции и исторические особенности поведения пользователей в качестве представления интересов пользователя, а затем присваивает различные веса каждому представлению интересов через сеть внимания. Этот вес рассчитывается путем сопоставления интересов пользователя с оцениваемой рекламой, чтобы структура модели соответствовала двум предыдущим наблюдениям: мультимодальное распределение интересов пользователей и частичное соответствие. Внимание Формула расчета сети выглядит следующим образом:

V_u=f(V_a)=\sum_{i=1}^N w_i \cdot V_i =\sum_{i=1}^N g(V_i,V_a) \cdot V_i

в,V_uпредставляет вектор представления пользователя,V_iповедение пользователяiвектор вложения,V_aВектор представления, представляющий рекламу. Суть в том, что вектор репрезентации пользователя не только зависит от исторического поведения пользователя, но и имеет прямую корреляцию с оцениваемой рекламой.

Суммировать

Основная модель прогнозирования CTR изменилась с традиционной модели ширины на модель глубины, и соответствующая рабочая нагрузка по разработке искусственных признаков постепенно уменьшилась. Упомянутые выше модели глубокого обучения, за исключением специальной обработки входных данных по DIN, аналогичны остальным моделям, разница между ними в основном заключается в различии структуры сети, как показано на следующем рисунке:

Сравнение этих четырех моделей глубокого обучения показано в следующей таблице:

Таким образом, технология глубокого обучения имеет три основных преимущества. Первый пункт,Компонентизация дизайна модели. Компонентизация означает, что при построении модели вы можете уделять больше внимания самой идее и мотивации, а в реальной математической реализации вы можете проектировать и строить сетевую структуру наподобие строительных блоков. Второй момент,Стандартизация методов оптимизации. До 2010 года машинное обучение было сложной областью. Это требует не только понимания проблемы, умения определить математическую формулировку, но и овладения хорошими навыками оптимизации и разработки конкретных методов оптимизации для соответствующих задач. Но теперь, благодаря изменениям в структуре модели, глубокое обучение позволяет отрасли легко использовать стандартные SGD или варианты SGD для получения хороших оптимизированных решений. Третий пункт,Глубокое обучение может помочь нам добиться разделения проектирования и оптимизации и выполнять проектирование и оптимизацию поэтапно.. Для одноклассников в отрасли вы можете уделять больше внимания самой проблеме, абстрагироваться и подходить к знанию предметной области. Затем используйте некоторые стандартные методы оптимизации и фреймворки для решения.

использованная литература

личный блог:yangxudong.github.io/ctr-models/

[He X, Pan J, Jin O, et al, 2014] Practical lessons from predicting clicks on ads. at facebook. ACM SIGKDD.
[Rendle, 2010] Factorization machines. In ICDM.
[Gai et al] Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
[Cheng et al., 2016] Wide & deep learning for recommender systems. CoRR.
[W. Zhang, et al, 2016] Deep learning over multi-field categorical data: A case study on user response prediction, ECIR.
[Yanru Qu et al, 2016] Product-based Neural Networks for User Response Prediction.
[Huifeng Guo et al, 2017] DeepFM: A Factorization-Machine based Neural Network for CTR Prediction.
[Guorui Zhou et al, 2017] Deep Interest Network for Click-Through Rate Prediction.