Эта статья была первоначально создана "AI Frontline", оригинальная ссылка:Методология глубокого обучения приложения Tencent для чтения
Автор | Сунь Цзысюнь
Редактор | Винсент
Введение в передовую ИИ:«15 января 2018 года основатель WeChat Чжан Сяолун упомянул о некоторых изменениях в общедоступной учетной записи WeChat в своем выступлении на публичном уроке WeChat, в том числе о том, что официальная учетная запись WeChat будет иметь собственное независимое приложение. С момента запуска официальной Аккаунт, он сразу же стал любимцем СМИ, особенно в технической сфере. Для технических людей надежный технический публичный аккаунт - это не только платформа для чтения, но и лестница для обучения и прогресса. В сегодняшнем В эпоху великого развития ИИ эта статья расскажет вам, как новые медиа-платформы используют глубокое обучение, чтобы обеспечить более богатый и персонализированный опыт чтения?»
Данная статья является выступлением автора на конференции QCon 2016 в Шанхае, организованной и опубликованной с разрешения автора AI Frontline.
Всем привет, меня зовут Сунь Цзы Сюнь из Tencent. Сегодня я в основном фокусируюсь на практике приземления и делюсь глубоким обучением в новых медиа.
Все знают новые медиа, от NetEase до Tencent, Toutiao, Yidian News, практически все проводят много времени в этих приложениях для чтения. Почему приложения для чтения популярны? Это может быть больше, потому что традиционные медиа в прошлом развивались в направлении новых медиа и превратились в форму графики, видео, прямых трансляций и самомедиа, а также технологии персонализированных рекомендаций, что сделало его тысячей людей. . . . Здесь мы в основном представляем наш опыт в этом аспекте нового медиа-продукта Tencent для мобильных устройств Q, в основном извлекая аспекты, связанные с глубоким обучением, которые могут не включать инженерные или другие аспекты.
С развитием технологий глубокого обучения медиа-контент в области персонализированного чтения имеет более обильные методы обработки. В прошлом он в основном основывался на технологии машинного обучения для классификации контента, тематического моделирования и т. д. В настоящее время существует больше технических средств для моделирования и обработки мультимедийного контента, такого как видеоизображения. В этом выступлении в основном рассказывается, как применять технологию глубокого обучения, чтобы помочь медиа улучшить качество и рейтинг кликов контента, а также как оказать помощь в работе с новым медиаконтентом, включая следующий контент: корреляционный анализ заголовка медиа и контента, анализ настроений комментариев. , автоматические комментарии и т. д., классификация и поиск изображений, семантическое извлечение, персонализированная технология распознавания горячих точек для облегчения выбора медиа, применение технологии распознавания стиля изображения и сцены.
ПРИЛОЖЕНИЕ для чтения: отправляйте нужный контент нужным пользователям
Прежде всего, что делает это приложение для чтения? Например, если вы хотите запустить приложение самостоятельно, у вас сначала должен быть контент, который может быть текстом, изображениями или видео, а затем вам нужно его смоделировать, текстовое моделирование, классификацию, очистку, моделирование изображений, классификацию, извлечение, и то же самое касается видео. Тогда есть пользователь.Как новый медиа, то, что вам нужно сделать, чтобы прочитать приложение, это передать соответствующий контент соответствующему пользователю.Если вы сделали рекламу, вы будете более знакомы с ней. Когда дело доходит до пользователей, существуют некоторые базовые элементы моделирования для пользователей, такие как демографические атрибуты, то есть возраст, регион, пол, образование и т. д., а также поведение пользователей в реальном времени, поведение при просмотре, просмотр записей, Все ярлыки на вашей платформе моделируют людей, и это то, что необходимо сделать для создания приложения.
Во-вторых, в каких сценариях связаны приложения для чтения? Например, все мы знаем, что большая часть контента, продвигаемого Facebook, проходит через фиды.Это включает в себя технологию рекомендаций, которая может ассоциировать контент с пользователями.Когда пользователи активно обновляют фиды, они фактически будут постоянно рекомендовать вам новые вещи. Второй — push, связанный с ComputerAds Tech, компьютерной рекламой. Компьютерная реклама стала довольно популярной в последнее время.В последние два года были систематизированные книги.Я работал в этой области в Baidu,и эта часть тоже включает в себя очень большую систему,включающую интернет-рекламу и контрактную рекламу. Push означает, что я выбираю часть контента и активно отдаю его пользователю, это активный режим. Поиск, пользователи активно ищут контент, он отличается от обычных поисковиков, есть персональные рекомендации, в основном чтение контента. В следующем QA есть чат-боты, сделанные некоторыми компаниями.Мы тоже этим занимаемся.Сегодня мы не будем этим заниматься, потому что мы тоже изучаем, в основном задействуя какие-то технологии QA или KB.
Как правильно выбрать время пуша? Это должно быть связано с конкретным пользователем. Есть еще фиды, как рекомендовать изображения пользователям, то есть рекомендацию изображений сделать сложнее, ведь если у самих изображений нет текстового описания, то как вы их рекомендуете? Есть много функций, которые нужно извлечь. Существует также контент, как смоделировать контент, как оценить статью или медиа-контент и как оценить, является ли медиа-контент качественным или некачественным. Если вы видите некачественный контент, рекламу и маркетинговый контент, а также статьи с опечатками при обновлении приложения, то пользовательский опыт очень плохой. Когда вы что-то читаете в приложении, имейте возможность оценить его.
Как выбрать обложку? Обложка очень интересная Какой контент вы выберете для чтения в приложении? Вы когда-нибудь задумывались о том, почему вы нажимаете на нажатые объекты, когда пролистываете каналы? Вы видели две вещи: одна — заголовок, а другая — картинка. Через заголовок и картинку вы можете решить, нажмете ли вы, чтобы прочитать эту статью, поэтому заголовок — это один аспект, а изображение — более важный аспект. Если оптимизировать картинку, можно увеличить объем чтения минимум на 25%.
Как подтолкнуть
Методы, используемые для push, связаны с глубоким обучением, но мы обнаружили, что традиционные статистические методы здесь работают лучше, чем методы глубокого обучения. У нас есть два одноклассника, которые делают это одновременно, один использует глубокое обучение, а другой использует традиционные статистические методы, и мы обнаружили, что традиционные статистические методы намного лучше, чем глубокое обучение. Справа приведен список количества push-уведомлений, полученных моими друзьями. Вы можете видеть, что это персонализированное приложение активно продвигается. Как и многие отечественные продукты, коэффициент открываемости через push-уведомления составляет 43%, и новые пользователи берут на себя инициативу войти Далее, 43% заходят через пуш, так что пуш очень важен. Мы знаем, что как и реклама, есть два вида рекламы, один тип интернет-рекламы, то есть контекстная реклама будет появляться на странице, а есть всплывающая реклама.Например, при просмотре некоторых видео-сайтов будет всплывающие окна и реклама. Медийная реклама и реклама контрактов на самом деле являются двумя разными технологиями.В рекламе контрактов есть «оценка запасов».Контракт продается в соответствии с запасами, так как вы оцениваете запасы? Должно быть, я подсчитал, что пользователи откроют мой видеосайт в это время. Я подсчитал, сколько пользователей посмотрит третий эпизод «Легенды о Чжэнь Хуане» в определенный момент времени. Только зная эти данные, мы можем узнать, сколько контракты на продажу, так что это очень важно. Наше медиа-приложение на самом деле немного похоже на это, контрактная реклама, оно будет продвигать контент, но это реклама, мы новости. Отправьте этот контент пользователям, один из них заключается в том, что контент push-уведомления должен быть персонализирован, потому что содержание рекламы персонализировано, а другой заключается в том, персонализировано ли время push-уведомления, а не толчок операции, основное событие операции в реальном времени. , то – эксплуатационная категория. Толчок персонализированных слов означает, что вы должны посмотреть какой-то контент сейчас, а затем подтолкнуть персонализированный контент к вам, пора его проанализировать.
Это данные, опубликованные iiMedia Research.Когда пользователи используют приложение, когда они едут в транспорте, перед сном, во время обеденного перерыва или когда они идут в ванную, проблема здесь в том, что время у всех разное, как Вы толкаете время каждого человека?А как насчет тысяч людей?
Давайте посмотрим. Это общедоступные данные WeChat. Выше приведено распределение времени чтения пользователями общедоступных учетных записей, количество статей, прочитанных пользователями в каждый момент времени, а следующее - ежедневное время отправки нашей общедоступной учетной записи Tencent. . Время пуша публичного аккаунта WeChat сосредоточено в 10:12 каждый день и с 17:00 до 18:00 дня.Это рабочее время владельца публичного аккаунта?Нет, это привычка пользователей WeChat кто узнал. Пользователи WeChat более активны в эти два момента времени, поэтому он выбирает два более консервативных момента для продвижения. Если вы выбираете один раз, вы, вероятно, выбираете 17-18 часов, два раза вы должны выбрать утро. А если три раза? Вы выбираете три раза в этой таблице, как вы выбираете, вы не можете выбрать. Четыре или пять? Чем больше контента приложение предлагает пользователю, тем лучше. Если пользователь испытывает отвращение, вы не должны продвигать его. Сейчас так много сред, что вы можете нажать одну, когда придет время. Как мы получаем эти данные, сколько раз пользователь нажимает и когда — это все вопросы, которые нам нужно решить.
Здесь нужно ввести модель, то есть мы не знали, сколько раз нажать и когда нажать, когда мы учились раньше, Это может не очень хорошо сказать нам о глубоком обучении. Предположим сценарий, студент, где сосредоточен период времени, в течение которого студент использует телефон каждый день? Может быть, когда он просыпается утром, если ему скучно в классе, он будет чистить его, затем в полдень, он будет чистить много времени днем, и он не будет чистить, когда он общается и развлекается, это студент. Офисные работники должны чистить зубы утром, в полдень, заняты работой днем и постоянно чистить зубы ночью — это офисный работник. Все эти типы людей представляют собой разные портреты. Как получить центральные точки, которые каждому человеку придется часто чистить? У них есть большая часть времени, чтобы чистить эту вещь. Просто проведите кистью по центральной точке мобильного телефона и нажмите, потому что они будут Не вызывайте отвращения. Не толкайте учеников, когда они в классе или когда офисные работники находятся на совещании. Как вы получаете эти моменты времени через историческое поведение пользователя? Я только что привел два случая. Некоторые люди могут сказать, что я чищу три раза в день, некоторые люди чистят зубы шесть раз, а некоторые люди чистят зубы семь раз. Если вы хотите сделать это с помощью традиционной технологии кластеризации, обычная технология кластеризации должна реализовать дизайн. .Определить, что такое К, и сколько классов собрать, надо хорошо настроить.На самом деле, К разное для разных пользователей. Сначала мы отправили все данные в глубокое обучение и позволили ему выбрать K за нас, но мы обнаружили, что это в основном переоснащение. Многие студенты, возможно, использовали LDA.Лучшее в LDA то, что он использует сопряжение.Его биномиальное распределение сопряжено с процессом распределения Дирихле.
Процесс Дирихле не требует от вас указывать, что такое K. Этот процесс означает, что вам нужно указать только параметр, и этот параметр может сказать вам, что в случае этого параметра он имеет тенденцию генерировать несколько категорий или имеет тенденцию к недавно произвел меньше категорий. Если это параметр, посмотрите на нашу верхнюю картинку. Если ваш α равен 0,01, это класс, если вы установите его на 100 или более, он еще больше разделит ваш класс. Если приложение нажато дважды, установлено меньшее, четыре раза нажато и установлено большее, оно может автоматически генерировать категории для вас. Давайте посмотрим на картинку справа. Это данные, собираемые Tencent, когда пользователи открывают приложение. Время QQ и WeChat объединены. Данные приложения Tencent открываются с 19 по 27 числа. Как узнать его категорию с помощью процесса Дирихле напрямую.
Конечным результатом является то, что верхний левый угол-это мальчик в школе в Шанхае, верхний правый угол-школьница, а нижний левый угол-менеджер проекта Tencent, Если вы нажмете дважды, как разделить? Мы использовали некоторые методы, чтобы сделать это за 1-5 дней и 6-7 дней, соединить данные в 23:00 и 4:00 утра и получить эту кривую с помощью технологии передискретизации и некоторых других методов. поведение использования в этот момент более интенсивное, поэтому в основном мы получаем эти результаты. При тех же параметрах студенты-мужчины много свайпают свои мобильные телефоны каждый день. У него пик приходится на ночь, а девушки в правом верхнем углу свайпают более равномерно. Коллеги Tencent свайпают только утром и вечером и редко свайпают в полдень. , Вы можете выбрать время отправки для пользователей.Как мультимедийное приложение, вы можете выбрать время отправки вместо единого времени для всех пользователей.
Как выбрать и отобразить обложку
Изображения могут влиять на рейтинг кликов статьи. В верхнем левом углу есть звездочка. Это эффект наших конкурирующих продуктов. Голова звезды обрезана, а аватар не отображается при отображении приложения. Большинство пользователей неохотно нажимают на такие картина, потому что нет глаз, не знаю, кто. Как это решить? Ее можно решить с помощью распознавания лиц, а можно распознать базу данных лиц, и ее можно решить, сформировав нижнюю левую картинку. А если несколько человек? На каждом углу люди, а если делать групповое фото, распознавание лиц выбрать нельзя. А если второй не человек? Посмотрите на собаку справа. Это два снимка, которые она сделала на самом деле. Вы можете видеть, что собаку не убирали. Внизу слева изображено животное, которое не убирали. Собака акита справа имеет только голова и глаз нет.На статью в принципе не кликаешь.
Так как же разумно выбирать картинки? Мы в основном рассматриваем эту проблему из следующих двух пунктов: во-первых, у нас должны быть все категории, включая людей, различные важные объекты, продукты питания, животных, ландшафты и т. д. Во-вторых, необходимо выявить разницу между ключевыми точками, которые более важны на экран.В традиционной технологии лучше делать сегментацию изображения.Некоторые технологии сегментации изображения, такие как модель змеи, среднее смещение, Ncuts, Graph cut и т. д., могут сегментировать птицу.Это некоторые традиционные методы.
После входа в глубокое обучение происходит семантическая сегментация.Глубокое обучение делает семантическую сегментацию более точной, и весь индекс был значительно улучшен. В правом нижнем углу много уток, и ваш скриншот будет сделан на фоне уток, а не озера. Это включает в себя технологию глубокого обучения, которая может сегментировать изображения, а затем идентифицировать объекты, чтобы можно было делать снимки экрана. Объект впервые идентифицируется здесь, и caffe определенно может помочь вам идентифицировать объект. Второй — определить контуры, и эти два сочетания делают что-то для вас. Это то, что мы делаем, используя традиционную технологию для определения контуров, а затем с помощью технологии машинного обучения для идентификации объектов, соответствующих контурам, а затем получаем интересующие объекты посредством сквозного сквозного обучения. Кстати, некоторые фотографии сейчас в основном могут быть хорошо разрешены. Многие зарубежные технологии решаются таким образом, а возможность повторного использования очень высока.
Рейтинг контента
Содержание СМИ, мы надеемся увидеть более качественный контент. Давайте посмотрим на эти два содержания. Слева — техническая категория, а справа — финансовая статья. С точки зрения макета и формата, какую из них вы предпочитаете читать? Предпочла бы прочитать вторую. Хотя левая сторона является технической, правая дает вам лучший опыт чтения, поэтому ее качество выше, и контент должен быть оценен здесь. Вот данные iiMedia Research. В 2016 году пользователи китайского сегмента мобильных новостей вносили предложения по улучшению продукта. Среди них большую долю составляло качество контента. Почти половина пользователей считала, что качество контента приложения был очень низким, и они часто подталкивали его к какому-то низкому содержанию.
Как Tencent решает эту проблему, оценивая контент и разделяя контент на пять классов, или шесть классов, или семь классов.Это проблема классификации, и проблема классификации решается через глубокую сеть. Вот некоторые функции, которые необходимо передать, включая макет, количество слов, качество изображения и популярность темы. Тогда индекс оценки справа — это показатель кликабельности или показатель завершения чтения? Для оценки качества статьи необходимо, чтобы пользователи тратили на нее больше времени, и чем больше пользователей готовы завершить чтение, тем выше ее качество, то есть углубленное чтение и иммерсивное чтение. Если статья открывается, а затем исчезает, какой смысл в высоком рейтинге кликов? Объясните, что название и картинки хорошие, но содержание внутри не вызывает желания читать, о котором нельзя сказать, что оно качественное. Чтобы оценить качество контента, целевая функция, которую вы в конечном итоге подберете, должна быть скоростью завершения чтения.
Как узнать скорость завершения чтения статьи? При первой выборке, поскольку мы не имеем ничего общего с пользователями, мы надеемся, что выбранный нами контент не имеет ничего общего с пользователями, потому что мы хотим избавиться от проблемы персонализированных рекомендаций. Здесь мы фокусируемся только на моделировании контента, PV больше 500, что может помочь вам смыть многие аномальные факторы, преобразовать изображение и заголовок, использовать изображение и заголовок в качестве заполнителей, а затем выполнить встраивание слова для слова. .
Здесь есть еще две технологии: левая сторона — это макет страницы, количество слов и информация о теме, а часть — исходная информация описания текста, то есть некоторая информация о содержании текста. Эти две части информации сложно выучить в одной сети, потому что, когда нейронная сеть изучает текстовые особенности, например, она может использоваться для встраивания всех слов, но макет набора не является текстом, поэтому нет возможности сделать обучение в то же время.В настоящее время есть два варианта.Приложенная информация очерчивается моделью, а затем текстовая информация очерчивается с помощью глубокого обучения и LSTM.После очерчивания два вывода делаются регрессией, а два модели собираются вместе. , что является одним из способов. Мы сделали это в начале, но в итоге обнаружили, что наш показатель точности составляет всего 67%, а это значит, что эффект не очень хороший. Последнее заключается в объединении исходной внутренней информации и текстовой информации для создания одной и той же сети, чтобы вся сеть была сквозной.Глубокое обучение имеет прямую и обратную обратную связь, которые могут одновременно регулировать два параметра сети. , итоговая достигнутая точность составляет 74%, что очень хорошо. Непосредственно используя сетевую структуру глубокого обучения kores, некоторые традиционные функции и функции текста могут быть объединены вместе.
Рекомендация изображения
Рекомендация картинок представляет собой относительно широкую структуру рекомендательной системы.Желтая часть на рисунке – это экспериментальная поисковая система онлайн-сервиса.Нижняя часть – ее содержимое и некоторые запущенные журналы, далее в средний. Здесь нас больше всего беспокоит. Зеленая часть – это система рекомендаций, которая хочет давать рекомендации пользователям. Это определенно не рекомендация. Например, есть совместная фиксированная рекомендация, рекомендация по интересам и рекомендация по оценке CTR. Это определенно недостаточно для рекомендательного механизма, потому что один рекомендательный механизм не может достичь разнообразия, поэтому требуется, чтобы несколько рекомендательных механизмов работали параллельно. Toutiao в отрасли имеет более 300 рекомендательных систем, работающих одновременно для распределения трафика через систему трафика. Если это изображение, больше внимания уделяется тому, как извлечь изображение из основного содержимого, поскольку изображение не содержит много текстовой информации, а затем как извлечь соответствующие статьи и связанный контент с помощью изображения?
Здесь мы рассмотрим, как это сделать в тексте. Текстовые элементы можно использовать в качестве запросов, а слова и предложения — в качестве поисковых систем. В случае с изображениями традиционные изображения имеют некоторые операторы, такие как SIFT, вы также можете использовать запрос, а некоторые из них могут быть кластеризованы.Статьи PLSA кластеризуются, ему нужны некоторые функции, и он также может передавать изображения, что аналогично приведенному выше. Некоторые особенности , сделать некоторые методы классификации, чтобы можно было добиться отзыва Индекс моего изображения действительно можно вспомнить.
В глубоком обучении функций, описываемых изображениями, может быть недостаточно. Нижний левый угол является заголовком этой статьи.Они добавили дополнительный слой на основе оригинальной классической сети AlexNet и использовали этот слой для извлечения картинок.Это не большая проблема, если поиск осуществляется напрямую без добавления слоя. Мы обнаружили, что добавление слоя здесь больше подходит для поисковых систем. Например, если вы ищете Fan Bingbing, вы получите Fan Bingbing. Если вы ищете птицу, вы будете рекомендовать птицу того же типа. Конечно, это не рекомендательный движок, который чем-то похож на поиск в поисковике по картинке, где все детали.
Когда мы ищем, мы используем две модели.Во-первых, мы строим сеть CNN для объекта и сеть CNN для стиля.Разные сети CNN делают разные вещи: одна для идентификации объектов, а другая для определения стиля.
Стиль картины похож на картину Ван Гога в правом верхнем углу.CNN, которая распознает стиль картины, отличается, потому что при обучении CNN веса нейронов разные.Это две вещи. Например, при поиске пейзажа для пользователя, это должен быть пейзаж, и в то же время стиль его рисования аналогичен, и техника съемки аналогична. Мы делим его на две CNN, и после того, как мы LR эти две сети CNN, мы формируем историю, которая является абстракцией более высокого уровня, такой как настроение, которое похоже на волнение. Чтобы подтолкнуть пользователей к чтению, вам следует избегать рекомендаций страшилок.Мы делаем сплав LR через две модели, чтобы сформировать историю, и мы будем отфильтровывать все страшилки для пользователей.
Это время поиска. В дополнение к поиску объектов, поиску стилей и поиску двух интегрированных историй, поскольку некоторые содержания имеют простые описания, мы сделали сплав текста и изображений. Это использовать широкая и глубокая сеть в тензорном потоке для объединения некоторых традиционных функций, таких как функции текста или некоторые интересы пользователей в чтении, и несвязанные сети для некоторого поиска или некоторого разграничения. По сути, здесь делаются четыре указателя (объект/стиль/история/текст, изображение) и, наконец, реализуется рекомендация по изображению. Мы можем рекомендовать пользователям изображения, которые им интересны.
Это наш эффект, слева какой-то пейзаж, в основном такой же пейзаж, тот же пейзаж и голубое небо. Пользователи, которые любят есть острую пищу в середине, будут продвигать эти острые. Старые фотографии сзади — это все старые фотографии Шанхая, которые более актуальны для пользователей. Если говорить только о тексте, то его трудно отнести к короткому тексту, потому что в нем нет содержания, это все картинки и атласы, со второй короткой текстовой классификацией возникнут большие проблемы.
об авторе
Сунь Цзысюнь после выпуска в 2009 году занимался разработкой ядра и распределенных систем, а в 2011 году работал в сфере высокопроизводительных вычислений в Baidu. Присоединился к Tencent в 2012 году, занимался разработкой рекламной системы группы QQ, а затем отвечал за проектирование и разработку системы планирования пропускной способности, ускоренной Tencent Cloud, и получил несколько бизнес-наград от компании. В 2014 году он начал проект официальной учетной записи QQ и отвечал за создание платформы официальной учетной записи и платформы контента. Сейчас занимается обработкой и майнингом персонализированного контента для чтения.
Для большего содержания сухих товаров вы можете обратить внимание на AI Frontline, ID:ai-front, фоновый ответ "AI", "TF", "Большие данные«Вы можете получить серию мини-книг и карт навыков «AI Frontline» в формате PDF.