1. Введение
Информационный поток в настоящее время является вторым по величине входом для пользователей Dianping для получения информации после поиска.Он использует высококачественный контент, чтобы помочь пользователям в их решениях о потреблении и помочь открыть для себя качественную жизнь. Весь информационный поток общедоступных комментариев (далее именуемый информационным потоком комментариев) связывает пользователей и информацию, связанную с персонализированными рекомендациями, и рекомендует лучший контент тем пользователям, которые в нем нуждаются. Система рекомендаций по информационным потокам включает в себя многоуровневые механизмы и сортировку, такие как интеллектуальный анализ контента, отзыв, уточнение, реорганизация и творчество. Этот документ в основном посвящен работе над творческой частью и выбирает для введения важную текстовую креативную оптимизацию.Он разделен на три части: первая часть излагает несколько ключевых вопросов, в том числе что такое креативная оптимизация, почему она делается и где являются вызовы; вторая часть часть описывает применение и технологический прогресс в этой области, третья часть знакомит с практикой нашей творческой оптимизации и, наконец, делает резюме.
Что такое креативная оптимизация
Креативность — широкое понятие, которое представляется аудитории как носитель информации, которым может быть любое одно- или многокатегорийное сочетание текста, изображений, видео и т. д. Например, заголовок новости — классический креативный носитель. Креативная оптимизация как метод относится к дальнейшей добыче и активизации методов объединения ресурсов на исходной основе для повышения ценности ресурсов. В продуктах интернет-сферы он часто проявляется в процессе улучшения технических показателей и бизнес-целей за счет оптимизации креативного носителя.Фокус посадки в информационном потоке включает три направления:
- текстовые идеи: Что касается текста, то включает в себя не только контент-ориентированные абстрактные заголовки, верстку и рерайтинг и т. д., но и рекомендуемые страницы копирайтинга и контент-ориентированной агрегации для продавцов. Все они широко применяют такие методы, как представление текста и генерация текста, и также являются основными направлениями данной статьи.
- имиджевый креатив: Аспект изображения включает в себя выбор первого изображения или первого кадра, динамическую обрезку изображения и вторичное создание изображения.
- другие идеи: дополнительная дополнительная информация, включая несколько типов причин отображения (например, социальные отношения и т. д.), элементы творчества.
Основная цель аналогична проблеме рекомендации, улучшить общие показатели, включая рейтинг кликов и коэффициент конверсии, и в то же время необходимо учитывать опыт чтения продукта, включая ориентацию контента. Часть об «опыте чтения» здесь расширяться не будет.
Зачем генерировать текст
Во-первых, сам текстовый креатив способствует важному развитию бизнеса. Во второй половине Интернета платформа Dianping (далее платформа Dianping) использует контент для увеличения продолжительности пребывания пользователей, и постоянно увеличивается количество различных типов распространяемого контента, это единственный способ улучшить аудиторию ценность контента за счет оптимизации творчества. Во-вторых, многие типы контента в настоящее время в основном зависят от эксплуатации и обслуживания.Операционный контент, естественно, имеет проблемы с низким охватом и высокой стоимостью и не может полностью реализовать сценарии, требующие преобразования контента. Наконец, в последние годы глубокое обучение совершило крупный прорыв в различных областях НЛП (обработка естественного языка). Что еще более важно, платформа обзора накопила большой объем данных о доступном контенте за эти годы. С технической точки зрения мы также можем предложить систематические решения для генерации текстовых креативов.
В связи с этим мы определяем два типа форм заявок с точки зрения объектно-ориентированного творчества текста, а именно содержательно-ориентированные абстрактные заголовки и ориентированные на торговца рекомендуемые копии и страницы агрегирования на основе содержания. Первый в основном используется в сценариях основного контента информационного потока, тогда как последний в основном используется в сценариях, основанных на содержании, таких как реклама информационных потоков. Вот краткое введение продукта заранее, чтобы помочь вам построить трехмерное восприятие.
- абстрактное название: Как следует из названия, это создание аннотации для определенного содержимого дистрибутива для отображения заголовка. Источники обзорного контента очень разнообразны, но более 95% контента не имеют нативных заголовков, а качество и разнообразие нативных заголовков также сильно различаются.
- Торговый копирайтинг: Создает описание основной торговой точки отдельного продавца, как правило, в виде короткого текста, состоящего из одного предложения.
- Агрегация контента: Создайте краткую рекомендацию для полной страницы контента, включая заголовок и несколько фрагментов копирайтинга.В отличие от копирайтинга для одного продавца, необходимо учитывать релевантность продавцов и обеспечивать разнообразие причин.
Наконец, должно быть ясно, что наша первоначальная цель оптимизации текстового креатива состоит в том, чтобы явным образом соединить пользователей, продавцов и контент через носитель креативности. Мы можем знать, на что пользователи обращают внимание, какой контент говорится, как направлять пользователей к чтению, знать, какие продавцы хороши и где они хороши, и дальше давать рекомендации по информации. а не генерируется ради поколения.
проблемы
Оптимизация текстового креатива сталкивается с различными проблемами в бизнесе и технологиях. Прежде всего, с точки зрения бизнеса, запуск оптимизации креативов требует выполнения двух основных условий:
- Во-первых, свяжите креативную оптимизацию с бизнес-целями, потому что не все идеи можно оптимизировать, и не все креативные оптимизации могут принести ожидаемую ценность для бизнеса, и легко застрять в неправильном направлении.
- Во-вторых, творческая оптимизация трансформируется в проблему оптимизации, и возникает некий пробел. Это отличается от многих проблем классификации и сортировки, которые являются относительно субъективными.Так называемая «тысяча Гамлетов в глазах тысячи людей», может ли творческая оптимизация достичь ожидаемых бизнес-целей, это преобразование очень важно.
Во-вторых, на техническом уровне разные приложения в отрасли сталкиваются с разными проблемами и пытаются найти и применять соответствующие решения. При генерации текстовых идей самые большие проблемы, с которыми мы сталкиваемся, включают следующие три пункта:
- с ограниченной генерациейГенерировать свободный текст несложно, ключ в том, чтобы иметь возможность контролировать то, что он говорит и как это говорить в соответствии с различными сценариями и целями. Это относительно сложный класс проблем, и мы все сталкиваемся с этой проблемой в сценариях наших приложений.
- ориентированный на бизнесСоздавайте контент, который улучшает бизнес-показатели и соответствует бизнес-целям. Поэтому к источнику контента, представлению контента и моделированию выдвигаются более высокие требования.
- Эффективный и стабильныйЗдесь есть два значения: первый слой — высокая эффективность, то есть эффект и эффективность предсказания обучения модели, второй слой — стабильное онлайн-приложение системы, требующее высокой точности и полного набора планов улучшения качества.
2. Обзор проблем генерации текста
Эволюцию нашего общего технического решения можно рассматривать как микрокосм развития области НЛП, основанной на глубоком обучении за последние два года. Итак, прежде чем начать, давайте поговорим о применении и техническом прогрессе во всей области.
2.1 Применение в смежных областях
В смежных областях в академических кругах генерация текста называется NLG, и связанная с ней цель задачи состоит в том, чтобы генерировать текст на естественном языке из входных данных. В области NLP мы используем более общие задачи NLU (понимание естественного языка), такие как классификация текста, распознавание именованных объектов и т. д. Целью NLU является преобразование текста на естественном языке в структурированные данные. NLU и NLG — два противоположных процесса на поверхности, но на самом деле они тесно связаны.Даже многие задачи NLU вдохновлены методами представления в генеративных моделях, и они отличаются только в конечной задаче.
Генерация текста также является широким понятием.Как показано на рисунке ниже, в широком смысле, если на выходе получается текст на естественном языке, к этой категории относятся все виды задач. Тем не менее, различные входные терминалы можно разделить на множество полевых приложений, от относительно зрелого приложения NMT (нейронный машинный перевод), соединяющего людей и языки, до начала 2019 года, GPT2, который может продолжать писать короткие рассказы, принадлежат к Текст2Текстовые задачи. Учитывая структурированные данные, такие как определенные информационные события, для создания текста, такого как новости о событиях, относится к задаче Data2Text, и наша бизнес-копия также относится к этой категории. Кроме того, есть Image2Text и т. д., в которых постепенно появляются некоторые приложения с определенным удобством использования и привлекательностью, такие как различные формы чтения изображений и разговоров.
2.2 Связанные технологии и прогресс
Генерация текста состоит из двух ключевых частей: текстовое представление и генерация текста, которые можно моделировать независимо или обучать через фреймворк.
генерация текста
Ключевая проблема, которую необходимо решить при генерации текста, заключается в том, как сгенерировать текстовое предложение на основе данной информации. Это задача с простым входом и сложным выходом.Слишком велика сложность задачи.Пока нет очень хорошего метода как по точности так и по обобщению. Модель Seq2Seq, предложенная в 2014 году, является очень общей идеей для решения такого рода задач.Суть заключается в том, чтобы использовать входное предложение или слово Token в нем для Embedding, а затем вводить его в рекуррентную нейронную сеть как представление источника предложение. Эта часть называется Encoder; Часть генератора также проходит через рекуррентную нейронную сеть в каждой позиции и выводит соответствующий Token в цикле. Эта часть называется Decoder. Соединяя Encoder и Decoder через две рекуррентные нейронные сети, можно соединить два параллельных представления.
Еще одна очень важная вещь — это механизм Attention, основная идея которого состоит в том, чтобы получить определенное весовое соотношение между двумя концами, то есть слова, сгенерированные на стороне декодера, больше связаны с некоторой информацией на стороне кодировщика. Он также может решать мультимодальные задачи, такие как задачи Image2Text, через CNN и т. д., изображение представляет собой векторное представление ключевых функций, и это представление выводится на аналогичный декодер для декодирования выходного текста, видео и голоса, и т. д. Таким же образом (как показано ниже).
Можно видеть, что Encoder-Decoder — это очень общая структура.Он также глубоко применяется к трем основным методам генерации текста, а именно к планированию, извлечению и генерации.Давайте посмотрим на преимущества и недостатки этих типов методов:
- планирование: Согласно структурированной информации, она планируется и генерируется в текст с помощью грамматических правил, правил дерева и т. д., которые можно разбить на три этапа. Макропланирование решает, «что сказать», а микропланирование решает, «как сказать», включая планирование грамматики и детализации предложений, а также окончательную поверхностную оптимизацию для точной настройки результатов. Его преимуществами являются надежный контроль и высокая точность, что особенно подходит для шаблонных сценариев, таких как выпуски новостей. Недостатком является сложность достижения сквозной оптимизации, а верхний предел потери информации невысок.
- Извлекаемый: Как следует из названия, извлечь часть исходной текстовой информации в качестве вывода. Сквозная оптимизация может быть достигнута путем преобразования представлений на стороне кодирования во множество различных задач классификации на стороне декодирования. Его преимущества: он может уменьшить сложность и лучше контролировать корреляцию с исходным текстом. Недостатком является то, что он легко связывается с исходным текстом, а способность к обобщению слаба.
- порождающий: Благодаря характеристике конца кодирования задача генерации последовательности завершается в конце декодирования, что может обеспечить полную сквозную оптимизацию и выполнение мультимодальных задач. Он имеет подавляющее преимущество в способности к обобщению, но недостаток в том, что управление чрезвычайно затруднено, а сложность моделирования также высока.
Текущие основные методы оценки в основном основаны на данных и ручной оценке. На основе данных сходство целевого текста может быть измерено и обучено под разными углами, например, BLUE и ROUGE на основе сопоставления N-Gram, расстояния редактирования символов (Edit Distance) и расстояния Jarcard на основе степени охвата контента и т. д. . Оценка на основе данных имеет большое значение в четко обозначенных сценариях, таких как машинный перевод, что также является важной причиной первого прорыва в области машинного перевода. Однако для наших творческих сценариев оптимизации это не имеет большого значения, нам важнее оптимизировать бизнес-цели, которые в основном основаны на фактическом онлайн-эффекте, дополненном ручной оценкой.
Кроме того, стоит упомянуть, что за последние два года постепенно появилось множество родственных методов с использованием GAN (Generative Adversarial Networks, Генеративно-состязательные сети) для решения проблемы разнообразия генерализации генерации текста. Есть много идей, которые очень интересны и заслуживают того, чтобы их попробовали, но в GAN все же есть определенный разрыв между традиционной моделью Seq2Seq и традиционной моделью Seq2Seq для задач дискретного вывода, таких как генерация текста НЛП, что можно рассматривать как потенциальное техническое направление.
текстовое представление
Как упоминалось выше, некоторые модели на стороне кодировщика должны моделировать предложения на стороне декодера.Как разработать лучшую модель для представления, может не только позволить терминальным задачам завершить классификацию и генерацию последовательности, но также выполнить семантическое рассуждение и сходство. д., это очень важная часть. Что касается представительства, то в 2018 году произошли два очень важных изменения в работе:
- Contextual Embedding: Это направление включает в себя ряд работ, таких как лучшая статья Elmo (Встраивания из языковых моделей), GPT OpenAI (Generative Pre-Training) и чудо BERT от Google (Представления двунаправленного кодировщика из трансформеров). Основная проблема, которую необходимо решить, заключается в том, как использовать большой объем неразмеченных текстовых данных для изучения предварительно обученной модели и использовать эту модель для помощи в различных размеченных задачах для лучшего достижения цели. Традиционная модель глубины задачи НЛП часто не может улучшить эффект за счет постоянного увеличения глубины, но увеличение глубины на уровне представления часто может лучше представить предложение.Ее основная идея состоит в том, чтобы использовать встраивание для представления контекстной информации. Но эту идею можно реализовать разными способами, например, ELMo, после двунаправленного сплайсинга LSTM, одновременно можно получить Embedding с контекстной информацией. Трансформатор до предела применяет механизм внимания на обоих концах кодировщика и декодера Благодаря прямому соединению всех позиций между последовательностями можно эффективно накладывать несколько слоев (12 слоев) для завершения представления предложений. Такой метод может сделать унифицированное представление различных терминальных задач, что значительно упрощает сложность абстракции моделирования. Наше представительство также проходит процесс от RNN до охвата внимания.
- Tree-Based Embedding: Другой жанр заключается в моделировании через древовидную структуру, включая множество методов, таких как традиционные синтаксические деревья, RNN древовидной базы в синтаксической структуре и встраивание корневого узла, которое можно использовать в качестве представления контекста. Само дерево может быть построено с помощью построения или с помощью обучения (например, обучения с подкреплением). Конечный эффект задачи связан не только со структурой дерева (включая глубину), но также зависит от способности «представления» обучения, а настройка относительно сложна. В нашем сценарии эффект ручной оценки не очень хорош, и есть еще много возможностей для дальнейшего изучения.
3. Исследование и практика
В этой части представлены некоторые исследования и методы оптимизации текстового креатива на основе генерации текста с конца 2017 года.
3.1 Источники контента
Чтобы начать генерацию текста, мы должны сначала понять сам контент.Важность количества и качества данных для нашей задачи не нужно повторять, что является основой всех моделей. Данные и приблизительные методы, которые мы используем в настоящее время, включают:
- канал платформы: Пользовательская оценка, пользовательские заметки, Push, стратегия, видеоконтент, список, список групп и т. д.
- сторонние каналы: Совместно получили много контента от сторонних платформ, чтобы заполнить пробелы, и в то же время операционная сторона помогла в творческом написании и отметила много контента, а также предоставила значительный объем данных.
- Этикетка данных: Самым дефицитным всегда является маркировка данных, особенно маркировка, соответствующая бизнес-целям. С этой целью мы разработали механизм E&E (Explore and Exploit) на этапе холодного старта, сознательно накопили онлайн-аннотации и внедрили как можно больше сторонних источников аннотаций.
Однако различные характеристики этого контента также создают различные проблемы:
- Разнообразный контент: Упомянутый выше контент имеет разную степень структурированности и большие различия по длине, что выдвигает высокие требования к представлению контента.
- Разное качество: Исходный контент очень богат, но на самом деле качество и текстуры далеки от идеального стандарта. В частности, для контента пользовательского контента, который составляет абсолютное большинство, неспособность хорошо контролировать качество на обоих концах сильно повлияет на оптимизацию бизнес-целей и даже вызовет проблемы с опытом.
- Сосредоточьтесь на торговцах: Более 99% контента на платформе использует продавцов в качестве основного носителя, что также выдвигает высокие требования к пониманию и самовыражению продавцов, особенно в контексте обновления контента.
- разница сцены: разные сценарии и разные приложения по-разному акцентируют внимание на возможностях модели и целях оптимизации. Например, контент и продавцы, первый требует высокой точности, обеспечивая при этом оптимизацию онлайн-эффектов; последний требует большей генерализации и оптимизации текстуры.
3.2 Базовые модули способностей
Поэтому, чтобы оптимизация текстового креатива была эффективной со стороны бизнеса, ее также необходимо применять к технологиям во многих направлениях в области НЛП. На следующем рисунке показан абстрактный базовый модуль возможностей всего приложения для генерации текста, включая уровень качества текста для исходного и конечного контроля качества, уровень текстового представления для построения контекстного представления и уровень сквозной модели для бизнес-оптимизации. многие из которых являются техническими приложениями. Выдающиеся достижения других братских команд в компании, включая группу интеллектуального анализа контента, центр НЛП и группу автономных вычислений. Такие как анализ настроений для фильтрации негативного контента, множественная целевая классификация текста, анализ тегов для представления продавца и т. Д., Я хотел бы выразить им особую благодарность здесь.
3.3 Практика заголовков информационных потоков
Контент двойных платформ необходимо распределять в информационном потоке.Первой оптимизацией с точки зрения творчества является заголовок, который является лишь одним из двух элементов, которые могут видеть пользователи (другой — первая картинка), и более 95 % нашего контента не имеет нативных заголовков.В то же время у нативных заголовков также есть проблемы, такие как плохое разнообразие и ориентация вне сцены, и есть место для вторичной оптимизации.
Однако есть две основные проблемы, которые могут варьироваться от задачи к задаче. Суть их не изменилась, а некоторые из них также сложны для отрасли:
- 1. Два ограничения: во-первых, в качестве цели необходимо оптимизировать конверсию рейтинга кликов в Интернете. Если он не работает в Интернете, нет особого смысла писать его хорошо. Во-вторых, он должен быть тесно связан с исходным текст, и очень мало места для ошибки.Как только она появляется, это случай.
- 2. Сложность оптимизации оценки: Во-первых, существует естественный разрыв между целями модели и бизнес-целями, во-вторых, размеченных данных крайне мало, а разрыв между офлайн-обучением и реальным количеством выборок онлайн-прогнозов часто составляет сотни раз.
В связи с этим мы используем комбинацию экстракционных и генеративных методов, чтобы дополнить друг друга, и начинаем решать их с точки зрения структуры процесса и модели.
Извлечь заголовок
Метод извлечения имеет очевидные преимущества в пользовательском контенте: во-первых, он обладает сильным контролем, хорошей корреляцией с исходным контентом, меньшим количеством изменений в пользовательском тексте, и его нелегко вызвать проблемы с опытом, и он может напрямую выполнять сквозную проверку. завершить оптимизацию на уровне предложения. В связи с этим мы превращаем все моделирование заголовка в проблему классификации короткого и среднего текста, но мы не можем избежать двух основных проблем, упомянутых выше, которые воплощены в:
- С точки зрения оценки оптимизации, во-первых, измерение креативности заголовков очень субъективно, а размеченные данные онлайн-каналов также легко зависят от других факторов, таких как сам рейтинг рекомендаций; во-вторых, проблема OOV, вызванная разницей в количестве данных прогнозирования обучения очень видно, и задачи классификации накладываются друг на друга Очень трудно улучшить эффект шума. В связи с этим мы фокусируемся на моделировании коэффициента кликов/конверсий в направлении семантика + уровень слова и дополняем механизм онлайн-оптимизации E&E, чтобы постоянно получать пары аннотаций и улучшать возможность онлайн-автоматического исправления ошибок.
- С точки зрения ограничений, хотя метод извлечения может напрямую оптимизировать бизнес-цели на уровне Seq, иногда необходимо учитывать опыт чтения, иначе будет сформирована какая-то «заглавная партия», либо проблема плохой корреляции с исходным текстом будет вызвано. В связи с этим мы абстрагируем модели предварительной обработки и качества, чтобы обобщить контроль качества текстового творческого контента, и отделим модуль отзыва, отвечающий за обеспечение опыта. С точки зрения структуры модели исходный текст представляется независимо, а затем для целевого управления вводится контекст темы.
Весь процесс извлечения можно разделить на четыре ссылки + онлайн-механизм:
- После распространения и анализа исходных данных в центре содержимого выполняется систематическая предварительная обработка подключаемых модулей для конкретного содержимого, включая формулировку предложений, традиционное и упрощенное преобразование, нормализацию регистра и т. д., а также выполняется анализ зависимостей.
- Затем все дополнительное содержимое оценивается на качество, включая общую фильтрацию, такую как фильтрация эмоций и чувствительная фильтрация, а также вторичную базовую оптимизацию, включающую выражение, избыточную обработку символов и переписывание грамматики, например, распознавание правил.
- В модуле отзыва базовое качество информации заголовков контента-кандидата оценивается посредством распознавания сущностей + оценки TF-IDF, а пороговый отзыв используется для обеспечения базового опыта чтения, что позволяет избежать некоторых крайне плохих случаев.
- Наконец, оценки коэффициента кликов/конверсий на уровне предложений производятся непосредственно для заголовков-кандидатов, которые отвечают за оптимизацию текстуры, релевантности и конечных бизнес-целей. С этой целью мы испробовали множество структур моделей для решения различных задач, и ниже мы сосредоточимся на этом аспекте.
Вся структура нашей первой версии Bi-LSTM+Attention не сложна. Наш входной слой — это Word Embedding от PreTrain, который передается слою «Внимание» через двунаправленный LSTM, полностью подключенный после Dropout, а сигмод перекрестной энтропии настроен на выходную дискриминацию, но его значение очень очевидно, Он может выполнять двунаправленную семантику для вся последовательность предложений Моделирование и уровень слов могут быть взвешены матрицей внимания. С точки зрения онлайна, как физические ощущения, так и коэффициент конверсии кликов были значительно улучшены по сравнению с исходной версией оценки отзыва. Затем на основе этой Базовой модели мы попытались добавить Loss of ELMo, а в качестве результата инициализации выполнили Pre Train на основе ELMo Loss в первом слое модели двунаправленного LSTM, и онлайн-показатели также немного улучшились.
Однако в приведенной выше структуре краткий и средний тексты моделируются независимо от исходного текста, что, очевидно, не может лучше учитывать условие ограниченности исходного текста. Одним из проявлений является то, что он подвержен таким проблемам, как «заголовок» и нерелевантность исходного текста, которые влияют на восприятие. В связи с этим мы провели много исследований в моделировании представления комбинации исходного текста и заголовка-кандидата, который представлен базовой моделью CNN+Bi-LSTM+Attention, но на его корреляционное моделирование влияет длина самого исходного текста больше, а эффективность обучения не идеальна.
После периода исследования и анализа, по проблеме ограниченного исходного текста, глубокая семантическая модель, наконец, используется для представления глубокой семантики, но также дополняется дополнительным проектированием функций, таких как атрибуты, темы и другие функции интеллектуального анализа, которые в совокупности называется Контекстом, чтобы представить возможности пользователя Воспринимаемая неглубокая информация, «ходьба на двух ногах», может быть лучше изучена, что, в свою очередь, дает ссылку для извлечения при изучении копирайтинга и генерации заголовков.
С точки зрения эффективности мы заменили циклическую структуру RNN-LSTM в целом и приняли механизм самоконтроля, недавно предложенный Google в то время, чтобы решить проблему эффективности обучения и длительной зависимости представления исходного текста. Принятие этой структуры имеет большое улучшение в эффекте и эффективности. Главный вопрос заключается в том, как можно лучше смоделировать нашу контекстную информацию в структуре Самовнимания. Она очень похожа по структуре на генеративные модели и описана в генеративном разделе ниже.
Кроме того, следует отметить, что если нет значительного улучшения более чем на два пункта, мы обычно не используем индикаторы автономной оценки для оценки качества модели. Поскольку, как упоминалось выше, наши размеченные данные имеют разную степень искажения, и это всего лишь небольшое подмножество онлайн-прогнозов, и существует неизбежный разрыв между онлайн и онлайн, поэтому нас больше беспокоит базовый опыт, затронутый модели (уровень успешности ручного обнаружения — это показатель неплохих случаев), а самое важное в отношении показателей эффективности (своевременность прогнозирования обучения) — это фактический эффект онлайн-бизнеса. В наших итерациях этих версий эти три аспекта были оптимизированы в разной степени, особенно бизнес-показатели, включая рейтинг кликов, общий объем кликов и т. д., увеличились более чем на 10%.
ограниченное генеративное название
Извлекаемые тайтлы добились хороших результатов с точки зрения бизнес-показателей и базового опыта, но все еще есть явные узкие места. Во-первых, он не полностью отделен от исходного текста, особенно в случае большого количества некачественного контента, вторичной оптимизации креатива не добиться; во-вторых, лучше явно связывать пользователей, мерчантов и контент через носитель творчества. Это порождающее название. Это единственный способ достичь его.
Генеративные заголовки можно абстрактно описать как: с учетом вышеизложенного и при определенных ограниченных условиях проблема оценки вероятности появления следующего слова. В сценарии заголовка информационного потока все проблемы, с которыми столкнется тип извлечения, будут унаследованы, и он столкнется с более серьезными проблемами при ограниченной оптимизации:
- Исходный текст ограничен. Во-первых, только выражая и изучая семантический замысел исходного текста, вы можете лучше контролировать генерацию заголовка. Это само по себе сложно в NLU, и еще более заметно в генеративной формуле; во-вторых, аннотация данные скудны, а исходный текст + данные пары заголовков очень мало, и большинство из них существуют в длинных статьях. Для обеспечения контроля и обобщения мы изначально отделили заголовок от исходного текста и смоделировали его самостоятельно, и связали через Контекст, чтобы можно было вводить больше нестандартных данных, и только когда накопление постепенно завершилось, мы приступили к попытаться сделать глубокую семантическую репрезентацию исходного текста.
- Для оценки оптимизации ограниченный генеративный предъявляет гораздо более высокие требования к количеству и качеству обучающего корпуса: во-первых, необходимо обеспечить базовое семантическое обучение и качество генерирующей стороны, во-вторых, генеративный характер, как языковая модель, не может напрямую оптимизировать бизнес-цели на уровне предложения. , также есть пробел посередине.
С точки зрения представления, как упоминалось ранее, мы испытали процесс моделирования цели отдельно и объединения с исходным текстом.Основная причина в том, что контекстная связь строится только для понимания цели, которая очень подвержена проблемам корреляции исходного текста. Поэтому мы также предприняли много попыток в направлении обобщения описания, например, описывая как можно более широкие и общие темы. Например, «Волшебство — это ресторан, который легко покоряет сердца людей», потому что он предназначен только для торговцев в Шанхае, содержание соответствует теме ужина, а способность к обобщению сильна, но ее по-прежнему нельзя использовать. как универсальное средство для решения проблемы.
На рисунке ниже показана общая структура нашей модели RNN-Base Seq2Seq с предварительными результатами. Сторона кодировщика использует, включая вышеупомянутое представление темы (включая бизнес-информацию) и двунаправленное семантическое представление исходного текста, контекст, образованный соединением двух частей, который выводится на уровень внимания. Когда сторона декодера генерирует текст, механизм внимания используется для изучения соотношения веса между темой и исходным текстовым представлением.Эта структура также полностью применяется к генерации копирайтинга, а контрольная структура будет введена в копирайтинге.
В моделировании последовательности мы проходим процесс от RNN до само-внимания. Вкратце, ключевым моментом моделирования последовательностей является то, как моделировать долгосрочные зависимости между последовательностями. Важным фактором, влияющим на него, является длина (то есть количество вычислений), которую проходит сигнал в прямом и обратном вычислениях сети, и чем дольше исчезает зависимость, тем она серьезнее. В структуре самовнимания каждый слой напрямую связан со всеми позициями предыдущего слоя, поэтому длина зависимости равна O(1), что в наибольшей степени сохраняет зависимости между последовательностями.
Видно, что кодировщик состоит из двух частей: одна представляет собой исходный текст, а другая представляет собой контекст темы, основанный на исходном тексте и понимании продавца, которые состоят из обеих частей. С этой целью мы позаимствовали некоторые исследовательские идеи NMT, скорректировали структуру Transformer, ввели Context Encoder в исходную структуру и добавили уровень Attention контекста к Encoder и Decoder, чтобы усилить способность модели захватывать контекстную информацию.
В процессе исследования генеративного направления мы добились онлайн-эффекта почти на 10% улучшения генерации заголовков низкокачественного контента, но еще есть много возможностей для дальнейших экспериментов и раскопок.
Извлечь и сгенерировать Объединить
В нашем сценарии есть две идеи комбинирования: одна — метод частичной разработки, ориентированный на бизнес-результаты, а другая — метод копирования, который мы изучаем.
Идея инженерии очень проста.Расширение кандидатов в задаче рекомендаций является возможным способом улучшения эффекта.Затем сгенерированный контент используется в качестве одного из новых наборов кандидатов для участия в общем прогнозировании и ранжировании. Этот метод может гарантировать, что окончательный онлайн-эффект не будет отрицательным, и он действительно достиг определенного улучшения.
Другой метод также является одним из поднаправлений академических исследований, то есть механизм копирования.Мы также сосредоточены на изучении.Это только введение в идею и не будет расширяться.
Первоначальная цель использования механизма копирования состоит в том, чтобы решить проблему OOV (вне словарного запаса) генеративных выражений. Но для нашего сценария большая часть данных пары «контент-заголовок» поступает из извлечения, то есть многие из наших данных заголовка на самом деле относятся к исходному тексту. Как унаследовать этот эталонный механизм, узнать, когда копировать и что копировать в соответствии с бизнес-целями, чтобы более элегантно использовать преимущества генеративности, — вот первоначальная цель нашего исследования метода копирования. Наше направление состоит в том, чтобы независимо моделировать вероятности копирования и генерации, сосредоточив внимание на проблеме «куда указать» в ограниченных ситуациях.
Разрыв между бизнес-метриками и генеративными целями
Мы знаем, что сущностью генеративной модели является языковая модель. Ее цель обучения — минимизировать кросс-энтропийные потери на уровне слов. В конце концов, нам нужно оценить коэффициент кликабельности на уровне предложения, связанный с бизнесом. , что приводит к несоответствию цели обучения и бизнес-показателей.
Чтобы решить эту проблему, в нашей сцене есть три возможных направления: первое — явно отметить метку модели извлечения в контексте, чтобы модель могла узнать разницу между ними, второе — предсказать поиск луча. расчет декодера.В то же время, что и вероятность, добавляется функция управления скорингом, третье - установить глобальную функцию потерь в обучающем декодере для участия в обучении, аналогично потере покрытия, добавленной в NMT.
Учитывая стабильность и стоимость внедрения, мы наконец опробовали первый и второй способы, второй способ был перенесен из копирайтинга мерчанта и будет представлен ниже. В онлайне эта попытка не дала лучших результатов на основе Combine, но ее также стоит изучить более подробно.
Онлайн-механизм E&E
Наконец, я представлю вышеупомянутый механизм E&E (Explore and Exploit), который используется для непрерывного получения размеченных данных и улучшения возможности автоматического исправления ошибок в режиме онлайн. Мы приняли жадную стратегию Epsilon Greedy и сделали небольшую модификацию, аналогичную классическому алгоритму Epsilon, разница в том, что вводится творческое состояние, а Epsilon делится на несколько уровней в соответствии с состоянием. Цель состоит в том, чтобы выделить лучшие идеи для трафика с более высокой вероятностью, вместо того, чтобы делить их поровну и исключать плохие, чтобы повысить эффективность. На начальном этапе оптимизации такой подход играл большую роль.
В частности, в соответствии с историческими показателями заголовка и изображения по сравнению со значением по умолчанию статус делится на 7. Сверху вниз производительность эффекта, в свою очередь, уменьшается, а коэффициент распределения трафика также уменьшается. Это может обеспечить что вся система может реализовать линию в случае шума в семпле Коррекция вкл.
3.4 Практика коммерческого копирайтинга
Как обычная творческая форма, копирайтинг имеет три потребности в сценарии, где O2O берет продавцов в качестве основного носителя: во-первых, дать продавцам тональность контента для обогащения творчества; во-вторых, расширить сцену доставки с помощью контента; наконец, расширить возможности контента. платформа обновлена, а основные бизнес-цели включают рейтинг кликов, уровень проникновения страниц и т. д.
Генерация копирайтинга и генерация заголовков могут быть обобщены в рамках общей модели генерации, которые можно классифицировать как задачи Data2Text.Наибольшая разница определяется «торговцем», носителем копирайтинга. В отличие от контента, требования к точности намного ниже, и сложность также значительно снижена, но в то же время выдвигаются более высокие требования к способности к обобщению, что также приносит различные проблемы с генерацией контента. Во-первых, с точки зрения репрезентации особенно важным становится структурированное понимание продавцов, во-вторых, с точки зрения контроля, существуют специфические и очень важные требования к контролю для задач D2T. В предыдущей статье также упоминалось, что генерировать фрагмент текста никогда не бывает сложно, важно то, как контролировать генерацию Seq в соответствии с различными требованиями, обеспечивая при этом хорошее обобщение. Далее также будут представлены несколько методов контроля, таких как контроль точки продажи, контроль стиля и контроль разнообразия. Существует множество различных идей для достижения такого контроля.
Торговец сказал
Представление продавца абстрагируется как контекст, как показано на рисунке ниже, который в основном разделен на две части.
Первая часть исходит из собственного понимания продавца, а другая часть исходит из целевого текста.Эти две части имеют определенное пересечение. Среди них данные, которые понимают продавцы, — это точки продаж или темы.На начальном этапе, чтобы добывать точки продаж и темы продавцов, мы в основном используем LDA с низкой стоимостью и без маркировки. Однако его точность относительно неконтролируема, и в то же время по-прежнему требуется ручной выбор тем торговых точек для использования в качестве новых аннотаций, чтобы помочь в последующем расширении контролируемых задач. Мы используем два поля «Ключ» и «Значение», чтобы вместе выразить точку продажи и тему (есть также много случаев только с «Значением») Например, на картинке ниже «блюдо» торговца — это ключ, «снежный краб». является значением, а «знакомства» — это только значение. С течением времени мы будем постепенно использовать этикетки продавцов платформы и графическую информацию, чтобы расширить охват торговых точек продавцов, чтобы обогатить нашу входную информацию. Эта часть описана во введении к интеллектуальному анализу контента и графу знаний НЛП и не будет здесь расширяться.
Вторая часть исходного текста намеренно добавляется в Контекст, в основном по трем причинам:
- Во-первых, полагаясь исключительно на Контекст, понятный продавцу, потери уменьшаются очень медленно в процессе обучения, и разнообразие генерируемых итоговых прогнозов не является идеальным. Основная причина заключается в том, что корреляция между целевым текстовым содержанием и точкой продажи и темой продавца далеко не достаточна. Очень трудно научиться этому репрезентативному отношению через собрание разных торговцев.
- Во-вторых, расширить объем доступных данных, не ограничиваясь данными с естественными аннотациями, такими как отзывы продавцов, расширить от подключения продавца до подключения точки продажи и ввести более обобщенные данные описания, такие как различные оперативные тексты и т. д.
- В-третьих, и это более важный момент, возможность косвенно реализовать выбор пунктов продажи, о чем будет рассказано ниже.
Реализация на стороне управления
Управление, на стороне декодирования существует два типа, один из которых мы называем Hard Constrained (строгий контроль), то есть информация, предоставленная (или не предоставленная) на стороне данных, должна выполняться (или не выполняться) на стороне декодирования. , это подходит для такой информации, как географические категории, которые не могут быть ошибочными. Например, этот продавец находится в Шанхае, и географическая информация, отличная от Шанхая, не может отображаться при ее создании, иначе легко вызвать двусмысленность. Другой тип называется Soft Constrained (слабый контроль).В отличие от проблемы NMT, даже при одних и тех же входных данных при создании копии допускаются разные выходные данные.Например, для одного и того же продавца окончательная копия может выбирать разные точки продажи. Описывать разные вещи.
Этот тип проблемы также является проблемой ограниченной оптимизации.Как упоминалось выше, есть два направления мышления: во-первых, путем создания механизма, позволяющего модели самостоятельно изучать цель; во-вторых, динамически добавлять требуемую цель управления в Луч Этап поиска Декодера. Мы используем комбинацию двух методов для завершения окончательной реализации различных элементов управления.
- Конструкция механизма на обоих концах: С точки зрения реализации конкретного механизма, это в основном зависит от одновременного воздействия входного контекста и выходного декодера, так что жесткое ограничение контекста исходит из вывода, чтобы модель могла автоматически изучать сильное ограничение. отношения, в то время как Мягкие ограничения выбираются байесовским методом. Метод динамически добавляется к контексту, тем самым помогая модели улучшить способность к обобщению.
- Управление декодером: Кратко представьте Beam Search. Как упоминалось ранее, процесс прогнозирования генерации текста осуществляется на уровне слов. Кандидатом на каждый раунд прогнозирования является все пространство словаря, а общий словарный запас часто составляет более 100 000 слов. . Если длина сгенерированной последовательности последовательности равна N, конечная последовательность-кандидат имеет 100 000 N-й мощности возможностей, что абсолютно невозможно с точки зрения вычислений и хранения. В это время необходимо использовать метод поиска луча.Каждый шаг сохраняет оптимальные верхние K (обычно K равно 2) последовательностей максимальной вероятности, а остальные обрезаются, что по существу можно рассматривать как сжатую версию декодирования Витерби.
На этапе предсказания Beam Search, помимо расчета вероятности модели, мы дополнительно добавляем Fuction в зеленой части рисунка ниже. Ввод представляет собой ранее сгенерированную последовательность, а конкретная логика расчета зависит от цели управления и может быть реализована свободно.
Далее кратко представлены две важные реализации элементов управления:
- Контроль точки продажи: это самый важный механизм контроля.Мы разобрали торговые точки и объекты, связанные с Hard Constrained, такие как регионы и категории, и напрямую добавили контекст в процессе понимания цели. Для Soft Constrained мы вычисляем простую условную вероятность через совпадение точек продажи и случайным образом добавляем точки продажи в контекст в соответствии с этой условной вероятностью, чтобы модель могла изучить ограниченные отношения посредством внимания. Наконец, в функциональной части «Декодер» мы добавили элемент оценки соответствия Hard&Soft Constrained для участия в окончательном расчете вероятности. Окончательный фактический результат также полностью соответствует нашим ожиданиям.
- контроль стиля: метод реализации очень похож на контроль торговой точки, но стиль здесь на самом деле реализуется косвенно через разницу между различным содержанием. Например, стиль написания заголовков публичных комментариев, контента PGC и контента пользовательского контента сильно различается. Затем, с точки зрения копирайтинга, такого как заголовок страницы агрегации, стиль PGC может быть более необходим, в то время как контент страницы агрегации нуждается в стиле UGC. Такие атрибуты содержимого можно использовать в качестве сигнала управления контекстом для захвата моделью.
3.5 Агрегация контента
управление разнообразием
Разнообразие является относительно важной и распространенной проблемой при создании копирайтинга, особенно для страниц агрегирования, которые генерируют N единиц контента одновременно из одного и того же магазина, одной точки продажи или темы. Основная причина заключается в том, что при декодировании и прогнозировании поиска луча всегда выбирается последовательность с наибольшей вероятностью, независимо от разнообразия. Однако, если для предсказания используется метод случайного поиска вероятности декодера, будет относительно большая проблема с беглостью.
В связи с этим мы напрямую оптимизируем глобальные результаты.При прогнозировании мы помещаем агрегированный Контекст страницы в тот же пакет, размер_пакета — количество копий, и выполняем обнаружение дублирования сущностей и обнаружение дублирования n-грамм в сгенерированной последовательности. Идея добавления карательного балла к тяжелому обнаружению может очень хорошо решить проблему разнообразия.
4. Динамическое творчество
В настоящее время многие сценарии оптимизации ранжирования, такие как рекомендации по поиску, будут добавлять творческую информацию как часть разработки функций в усовершенствованные модели ранжирования или отзыва. Если креативная оптимизация аппроксимируется как проблема ранжирования креатива на уровне контента, то широко используемые модели прогнозирования CTR, такие как Wide&Deep, DNN и FNN, также могут быть легко связаны. Но перед этим нужно прояснить очень важный вопрос, а именно разницу между ним и рекомендуемой моделью тонкой аранжировки, и они могут даже влиять друг на друга.В связи с этим изложите наши мысли.
Отличия от уточняющих моделей
- Во-первых, может ли модель точной аранжировки одновременно завершить сортировку идей, ответ, очевидно, да. Однако его сложность определяет верхний предел набора кандидатов, который может быть охвачен, и производительность часто не может принять многократное увеличение, вызванное идеей перекрестного умножения. Но не в этом суть дела.
- Во-вторых, то, сортируется ли творческий слой до или после слоя точной аранжировки, напрямую влияет на сложность творческой модели, а также косвенно определяет верхний предел ее эффекта, а также его возможное влияние на модель уточненной аранжировки, которая может иметь глобальные последствия. Для этого не существует лучшей практики, в зависимости от компромисса между сценариями.
- В-третьих, модель уточнения преследует те же бизнес-цели, что и креативная сортировка, но достигается она другим способом. Модель точной организации улучшает бизнес-показатели за счет оптимизации глобального рейтинга, а творческая оптимизация улучшает бизнес-показатели за счет динамического увеличения ценности аудитории контента.
Наконец, вернемся к точке зрения пользователя: когда пользователи просматривают информационный поток, они фактически видят только саму идею (название, картинку, автора и т. д.), но за ней пользователь может увидеть много скрытой информации, т. е. , CTR Важные характеристики контента/продавца при оценке, такие как категории, сценарии и атрибуты продавца. Суть этого явления в том, что идеи могут представлять множество структурированной информации более высокого порядка.
Исходя из этого, в разработке функций творческой оптимизации направление очень четкое: усилить пользователя/контекст, ослабить элемент/POI и косвенно изучить ослабленную информацию через творческое представление для достижения оптимального упорядочения на творческом уровне. Эта часть работы включает не только текст и не будет расширяться в этой статье.
Возможность совмещения интересов пользователя с генерацией текста
Динамическое творчество предоставляет новое пространство для генерации текста, а также выдвигает более высокие требования. Динамическое творчество повышает ценность аудитории не только за счет сортировки.В последней части основного вступления мы задаем возможный вопрос для совместного обдумывания всеми коллегами и студентами. Я также надеюсь увидеть больше решений и практик из отрасли и вместе добиться прогресса.
5. Резюме и перспективы
В течение 2018 года информационный поток Dianping совершил значительный прорыв в основных показателях. В рамках креативной оптимизации было проведено много исследований в некоторых аспектах, а также достигнут значительный прирост показателей эффективности. Однако будущие прорывы являются более трудными и далеко идущими.
С 2018 по начало 2019 года было сделано много удивительных достижений в различных подобластях НЛП, и эти достижения были реализованы в отрасли. Это очень хорошая тенденция, и она также указывает на то, что прорывов на уровне приложений будет все больше и больше. Например, в начале 2019 года вышел GPT2, который может продолжать писать рассказы, хотя его реальная обобщающая способность пока неизвестна, он позволяет нам по-настоящему увидеть возможность генерации качественного контента в условиях ограниченного контента.
Наконец, возвращаясь к первоначальному замыслу, мы надеемся явным образом связать пользователей, продавцов и контент через творческие носители. Мы можем понять, на что обращают внимание пользователи, что выражает тот или иной контент, какие продавцы хороши и где они хороши, и мы можем дополнительно порекомендовать информацию.
использованная литература
- [1] Context-aware Natural Language Generation with Recurrent Neural Networks. arXiv preprint arXiv:1611.09900.
- [2] Attention Is All You Need. arXiv preprint arXiv:1706.03762.
- [3] Universal Transformers. arXiv preprint arXiv:1807.03819.
- [4] A Convolutional Encoder Model for Neural Machine Translation. arXiv preprint arXiv:1611.02344.
- [5] Не рассказывайте мне подробности, а только резюме! Тематические сверточные нейронные сети для экстремального суммирования. Препринт arXiv arXiv: 1808.08745.
- [6] Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
- [7] ELMO: Глубокие контекстуализированные представления слов, препринт arXiv arXiv:1802.05365.
- [8] openAI GPT: Улучшение понимания языка с помощью генеративного предварительного обучения.
- [9] Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
- [10] Tensor2Tensor for Neural Machine Translation. arXiv preprint arXiv:1803.07416.
- [11] A Convolutional Encoder Model for Neural Machine Translation. arXiv preprint arXiv:1611.02344.
- [12] Sequence-to-Sequence Learning as Beam-Search Optimization. arXiv preprint arXiv:1606.02960.
- [13] A Deep Reinforced Model For Abstractive Summarization. arXiv preprint arXiv:1705.04304.
- [14] SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient. arXiv preprint arXiv:1609.05473.
- [15] Generating sequences with recurrent neural networks. CoRR,abs/1308.0850.
об авторе
- Йи Чун, присоединившийся к Meituan Dianping в 2015 году, является экспертом по алгоритмам и в настоящее время отвечает за творческую работу над информационным потоком комментариев.
- Ян Сяо, доктор философии, присоединился к Meituan-Dianping в 2016 году в качестве старшего эксперта по алгоритмам и руководителя группы контента интеллектуального рекомендательного центра.
- Мин Хай присоединился к Meituan-Dianping в 2016 году в качестве исследователя в Meituan-Dianping и руководителя группы Центра разведки и рекомендаций Dianping.
- Чжунъи присоединился к Meituan-Dianping в 2016 году в качестве инженера по исследованиям и разработке алгоритмов.В настоящее время он в основном отвечает за исследования и разработку алгоритмов, связанных с идеей потока информации комментариев.
- Ян Вэй, который присоединился к Meituan Dianping в начале 2018 года, является инженером по исследованиям и разработке алгоритмов. В настоящее время он в основном отвечает за исследования и разработку алгоритмов, связанных с динамической креативностью потока информации комментариев.
- Фэнъян, который присоединился к Meituan Dianping в 2016 году, является инженером по исследованиям и разработке алгоритмов. В настоящее время он в основном отвечает за оптимизацию алгоритма работы с контентом потока информации комментариев.