1. Предпосылки

В последние годы был достигнут значительный прогресс в исследованиях многозадачного обучения (MTL), особенно Alibaba и Google использовали многозадачные модели в области рекомендаций. Эта серия предназначена в основном для того, чтобы разобраться в статус-кво и нескольких моделях многозадачности.

2. papers

Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate 2018.4

Conversion Rate Prediction via Post-Click Behaviour Modeling 2018.4

Perceive Your Users in Depth- Learning Universal User Representations from Multiple E-commerce Tasks 2018.5

Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts 2018.6

Recommending What Video to Watch Next A Multitask Ranking System 2019

3. Введение

3.1 Что такое многозадачное обучение

Многозадачное обучение проявляется во многих формах: совместное обучение, обучение обучению, обучение со вспомогательными задачами, метаобучение.

В настоящее время многие модели представляют собой однозадачное обучение, и существует только один объект. Однако бизнес-цели часто бывают сложными. Например, в области рекомендации видео продолжительность на душу населения связана с количеством кликов по видео и средней продолжительностью просмотра видео. Например, помимо таких факторов, как продолжительность, обычно считаются лайки, комментарии, избранное и другие показатели. Если модель обучается отдельно для каждой цели, возникают следующие проблемы:

Есть некоторые подзадачи с разреженными данными или небольшим размером выборки, которые трудно обучить.
Проекту необходимо адаптироваться к большему количеству моделей, а гибкость оставляет желать лучшего.
Общая информация между моделями и помощь определенной задачи текущей задаче не учитываются.
И поскольку между ними нет связи, существует вероятность конфликта на стадии слияния целей. Обычно используемый метод заключается в вводе параметров, и вручную настроить параметры сложно, поэтому трудно достичь оптимального решения.

Многозадачное обучение может не только интегрировать несколько отдельных задач, но и в целом работать лучше! Почему многозадачность так эффективна? Тогда давайте посмотрим на характеристики многозадачности.

3.2 Особенности многозадачности

Регуляризация. Многозадачное обучение усиливает регулярность модели двумя способами:
- MTL фактически дополняет данные, используемые для обучения.
- эффекты между моделями. Поскольку между задачами существуют разные шумы, когда задача А обучается одна, легко узнать шум задачи А, что приводит к переобучению. Но при одновременном обучении задач А и Б обе задачи зависят от дна L. При обучении B модели легче игнорировать те шумы, которые больше влияют на A. Поскольку на AB воздействуют разные шумы, одновременное изучение двух задач может помочь изучить более общие особенности и, таким образом, получить лучшее представление.
механизм внимания.
подслушивание и намек. Определенная функция может быть легко изучена задачей А, но трудна для изучения задачей Б, возможно, потому, что задача Б более сложно взаимодействует с этой функцией. Но многозадачность может научиться этому свойству у А и использовать его для Б.
Легко расширяется. В частности, в методе «общая нижняя часть» вам нужно добавить подзадачи только в верхней части модели. Он не только быстро сходится и подходит для новых задач, но и уменьшает общий размер модели.

3.3 Когда использовать многозадачное обучение

Необходимо обучить более общую модель
Данные представляют собой длинный хвост, а данные в хвосте трудно хорошо обучить.
Новые задачи могут использовать очень мало обучающих выборок (многозадачность может делиться информацией, полученной другими задачами)
Нужно быстро осваивать новые модели
Общий эффект улучшается.

3.4 Многозадачная структура

Есть две часто используемые структуры: совместное использование жестких параметров и совместное использование мягких параметров. Дизайн сети MTL также выбирает между жестким и мягким, что делает сеть легкой и позволяет обмениваться информацией в максимальной степени.

3.4.1 жесткий обмен

Как показано на рис. 1, все задачи имеют общий нижний слой, а верхний слой является выходным слоем конкретной задачи. Совместное использование нижней части может эффективно уменьшить переоснащение одной задачи.

3.4.2 мягкий обмен

Как показано на рис. 2, каждая задача имеет параметры и модели между ними, а сходство выражается в усилении ограничений параметров между задачами. Например, ограничения нормы l1, l2.

Далее рассказывается, как Али и Google разработали и использовали MTL.