Как использовать технологию искусственного интеллекта для повышения операционной эффективности производства веб-контента?

машинное обучение

На конференции 2050@2019, состоявшейся в городе Юньци, Ханчжоу, «Первая рекомендация четвертой парадигмы» был созван новый форум на тему «Расщепление после новых медиа, объединяющих искусственный интеллект». Чен Вейю из China Literature Group поделился тем, как использовать искусственный интеллект Intelligent , повысить операционную эффективность всего цикла веб-производства. Ниже приводится стенограмма выступления:

Профиль спикера:

Чен Вейю, глава интеллектуального бизнес-центра China Literature Group, отвечает за построение интеллектуальных технологий China Literature Group, включая рекомендации, поиск, портрет пользователя, интеллектуальный анализ текста, контроль рисков контента и другие направления анализа данных. В Baidu он отвечал за исследования и разработку системы точной рекламы, системы портретов пользователей, рекомендаций Baidu, больших данных о пользователях в автономном режиме, новой розничной торговли и других проектов.

Я очень рад быть здесь сегодня, чтобы поделиться с вами содержанием нашей работы и практическими выводами. Прежде всего, позвольте представиться: меня зовут Чэнь Вейю, я из China Literature Group и отвечаю за общий отдел интеллектуального бизнеса. Далее я начну с истории онлайн-литературы.

История веб-разработки

На самом деле, с тех пор, как Китай вступил в эру Интернета в 1994 году, начали развиваться веб-статьи, которые в то время в основном распространялись на BBS Shuimu Tsinghua. В 1998 году вышла книга хулигана Цая, и индустрия вообще считала, что это первый год развития китайской онлайн-литературы.

В 2002 году была основана китайская компания Qidian, предшественница China Literature Group. В 2008 году была создана компания Shanda Literature, которая приобрела новые веб-сайты, такие как Qidian Chinese.com и Hongxiutianxiang. В 2013 году была создана Tencent Literature, а в 2015 году была объединена Shanda Literature и создана Reading Group.

В конце 2017 года China Reading Group была зарегистрирована в Гонконге.Являясь ведущей в отрасли платформой для выращивания ИС и платформой для цифрового чтения, у нас есть несколько приложений для чтения, включая приложение Qidian Reading APP и приложение QQ Reading APP. В то же время у нас есть в резерве более 10 млн произведений, 7,7 млн ​​создателей и сотни миллионов пользователей.

Давайте перейдем к сегодняшней теме и поговорим о том, как мы совмещаем искусственный интеллект с операциями с контентом.

«Производство и эксплуатация веб-контента — это длительный цикл. С помощью интеллекта этот цикл можно использовать и ускорить его ускорение».

Веб-статья пройдет много этапов от производства до окончательного отражения ее ценности. На первом этапе автор напишет несколько тематических веб-статей; на втором этапе наша платформа должна проверить, соответствует ли содержание веб-статьи требованиям; на третьем этапе, если контент соответствует требованиям, делается вывод, что веб-статья имеет преимущество, мы заключаем договор, а затем выводим контент для читателей, и тогда автор может получить некоторые преимущества. После того, как контент получил некоторый доход на рынке электронного чтения, его также можно использовать в качестве лицензии на интеллектуальную собственность для адаптации в фильмах, анимации или игровых произведениях для получения дополнительного дохода, который называется добавленной стоимостью контента.

С точки зрения общего жизненного цикла контента это на самом деле очень долгий процесс. Например, на этапе потребления контента может пройти от одного до двух лет, чтобы статья была написана до конца, а для того, чтобы вылупить IP, может потребоваться от 3 до 5 лет, что является очень долгим периодом. мы надеждаИспользуйте общий цикл с помощью интеллекта, чтобы ускорить часть общего цикла, а затем может быстрее формировать реализацию некоторого контента,Этот фрагмент контента мозга, который мы все вместе называем чтением.

Генерация умного контента:Далее описывается, как мозг нашего чтения усиливает эти пять стадий. Первый блок находится на стадии генерации авторского контента,Мозг чтения контента может помочь авторам выполнять некоторую вспомогательную работу с контентом, например, некоторые предыдущие обзоры, а также может помочь предсказать тенденции контента., Например, недавняя драма о реализме очень популярна, мозг контента может вытеснить веб-статьи о реализме, которые могут быть более популярными в последнее время. Например, после выхода "Wolf Warrior" военные фильмы стали более популярными, и ИС, связанные с военными, могут быть очень популярны.Эти тенденции можно передать автору, чтобы автор мог написать что-то военное- тематические веб-статьи.

Умная модерация контента:Во-вторых, на этапе обзора содержания мы можемПомогите обзору контента провести разумную идентификацию антижелтой и античерной политики., В прошлом каждую статью нужно было просматривать вручную, и стоимость была относительно высокой.Благодаря интеллектуальным средствам это может помочь повысить эффективность просмотра контента..

Помогите редакторам определить качественный контент:Кроме того, при подписи редакционного контента мы можем более эффективно выявлять некоторые некачественные книги во время идентификации контента. Раньше редакторы должны были прочитать двести-три сотни глав полного текста, прежде чем подписывать контракт с автором, нагрузка была слишком велика, редакторы могли читать только одну работу в день, что было неэффективно.Помогите редактору провести интеллектуальную и некачественную работу по идентификации.Благодаря идентификации статьи по тегам мы можем судить, какие теги статьи сейчас более популярны., теги которых в настоящее время недоступны, помогут нам лучше оценить часть содержания этой статьи.

Интеллектуальная рекомендация:После того, как подписание контента будет завершено, мы отправим его читателям, чтобы они могли потреблять контент.Здесь мы также будем использовать интеллектуальное распространение контента, рекомендации, поиск и другие средства для повышения эффективности распространения контента.После лучшего понимания контента через мозг контента он может помочь рекомендовать более точное распределение контента. К ним относятся построение причин для рекомендации, введение, сопоставление контента, отображение ярлыка, улучшение восприятия и т. д..

Помогите восходящим и нисходящим IP-сетям ускорить понимание контента и реализовать добавленную стоимость контента:Последнее в чтении совершенно особенное, то есть содержание ИС.Сейчас мы не только делаем онлайн-статьи, но и должны делать более обобщение значения онлайн-статей.Если мы говоримЗначение веб-текста равно 1, значение IP может быть 100., чтобы достичь 100 из 1, нам нужно выбрать, в какой контент стоит инвестировать, и какой контент имеет большое рыночное пространство в будущем.

пройти через
Мозг чтения контента может помочь выше и ниже по течению ИС быстрее понять конкретное содержание веб-статьи за счет понимания содержания, того, стоит ли адаптировать его структуру и мировоззрение, а также велика ли его предыстория., ожидаемый масштаб развития. Раньше эти задачи заключались в том, что каждый IP upstream и downstream просто читал всю книгу целиком, но многие онлайн-статьи имеют тысячи глав, и общая эффективность на самом деле крайне низкая.

Итак, мы читаем содержимое мозга, все дляВключение всей эффективности потока контентаво время службы.


Чтение контента Архитектура мозговых технологий

Далее, давайте поговорим об общей структуре нашего мозга, связанного с чтением. Во-первых, через наши данные AGC и данные UGC, данные AGC — это данные, созданные автором. Во-вторых, это данные пользовательского контента. Например, под каждым контентом будет много комментариев и несколько списков книг. Список книг — это данные PGC. мыИнтегрируйте все данные, чтобы сформировать базовую информационную базу.Этот шаг представляет собой процесс превращения данных в информацию..

После того, как у нас есть информация, мы занимаемся добычей знаний,Интеллектуальный анализ использует обработку естественного языка, включая распознавание сущностей., это человек? Говоря о местоположении? Говоря о событиях? Или говорить об объекте и так далее.Второй - извлечение троек, тройка — это подлежащее, сказуемое и дополнение, например, такой-то победил такого-то или такой-то забил такого-то до смерти и так далее. Затем в сочетании с нашими собственными отраслевыми знаниями,В нашей отрасли появилось много нового, в том числе некоторые отношения персонажей, контекст общего события, дизайн общей структуры мировоззрения и т. д., объединив эти знания,Сформировать карту знаний самого чтения.На основе этих графов знаний мы делаем представление знаний в верхнем слое,этоОтображение знаний, которые были получены с помощью визуальных средств,специально для читателей редакции, потому что лежащие в основе знания не имеют большого значения, но с помощью некоторых визуальных средств можно хорошо понять, что представляют собой эти знания.

Четвертый шаг – применение знаний. После того, как знание извлечено,Некоторые приложения будут создаваться снова, что позволит производить, распространять, потреблять и создавать добавленную стоимость контента для бизнеса..

Общая структура читающего мозга такова, и сегодня я сосредоточусь на аспекте понимания содержания. Потому что, только по-настоящему поняв содержание, мы можем лучше понять содержание всей веб-статьи.


Первый шаг на самом делеДетализация слов — это то, как обобщить статью в тег и слово., чтобы читатели могли быстро понять, о чем эта история. В качестве простого примера, посмотрите на Shuangwen. Shuangwen заключается в том, что эта статья очень быстро развивается, и ее очень приятно читать. Благодаря этим тегам читатели могут быстро получить приблизительный тип этой статьи.

Другойгранулярность предложения, мы можем получить конкретную сигнальную точку только с помощью детализации метки, но с помощью детализации предложения мы можемВыведите некоторые ситуации, связанные с этой статьей, которые могут лучше сосредоточиться на семантике..

Третий шаг — рассмотреть степень детализации длинных текстов, сформированных по специальному сценарию онлайн-текстов.Сейчас все понимания в отрасли основаны на зернистости коротких текстов, таких как новостная информация, ноДетализация длинного текстаНекоторые исследования начались совсем недавно. Существует большая разница между степенью детализации длинных текстов и коротких текстов. Например, для веб-статей, таких как около 2000 глав, ему нужно перейти наИзвлеките контекст каждого события, чтобы извлечь взаимосвязь символов всего веб-текста..

Последний на машинескрытая векторная гранулярность, то есть через некоторые из результатов, которые мы определили ранее, будь то понятная человеку метка, точка интереса или ключевое предложение, пусть машина автоматически понимает расчет,Проецируйте каждую статью в многомерный вектор, получайте некоторые неявные векторные знания и используйте их непосредственно для машины..

Детализация слов в понимании контента

Тогда поговорим о гранулярности слов.По сути, мы разобрались с представлением некоторых слов в сетевом тексте в целом.Первый блок — это верхний слой, а верхний слой — это собственно классификация. Эта классификация устоялась в промышленности, и за длительный период времени накопились некоторые специфические классификации.

Средний слой — это некоторые ярлыки, которые мы создаем.Этот вид ярлыков основан на пограничной точке нашего собственного авторитета и использует ярлыки для описания некоторого содержания, включая такие вещи, как пересечение, сокровище, неизвестность, Tucao, Xueba, школьный цветок и т. д. ., все из которых являются нашими целыми некоторыми ключевыми словами тега в системе тегов.

Количество меток в нижнем слое еще больше, классификация верхнего уровня, вероятно, представляет собой классификацию из числа сотен уровней, а метка среднего уровня — из числа тысяч уровней. Обобщенный на нижний уровень, это вектор точек интереса на уровне 10 000. Например, Чжугэ Лян, Конг Мин, Дяо Чан, это все возможные достопримечательности. В том числе баскетбол, футбол, бадминтон и т.д.

Все эти обозначения можно сделать соответствующими друг другу. Например, такие ярлыки, как Kongming и Diaochan в нижнем слое, могут быть сопоставлены с определенной исторической династией в среднем ярлыке, а затем сопоставлены с верхним слоем, таким как некоторые исторические романы и т. д. Все они имеют некоторую связь.

Детализация предложений в понимании контента

Далее, давайте поговорим о степени детализации.С помощью некоторых простых материалов, таких как материалы AGC и материалы UGC списков книг, генерируется рекомендация. Рекомендуется отображать только небольшой блок тофу.Как сжать и отобразить богатый контент Интернета в блоке тофу, является несколько технически сложной задачей.

Сейчас в презентации в основном показано введение, но большинство людей не понимают, о чем эта статья, через введение, поэтому мыНекоторые рекомендуемые слова извлечены из некоторых данных AGC и UGC., рекомендации и генерация в основном извлекаются из наших данных AGC или UGC,Извлеките несколько предложений с сильной семантикой и лучшей выразительной способностью.

Второй — через интеллектуальное поколение,Чтобы связать с помощью перевода, некоторые слова со сходной семантикой переводятся, образуя новые предложения. Через эти два шага формируется кандидат рекомендуемых слов для веб-текста.Затем выполните слой фильтрации ниже, например, сортировку по частоте кликов, а затем выполните некоторые уточнения оптимизации.

Структура длинного текста для понимания содержания

Далее поговорим о нашем понимании структуры длинного текста.Первая строка — это понимание линии персонажа, а вторая строка — понимание линии события. Что касается событийных линий, нам нужно подготовить несколько троек-кандидатов, то есть кто что в каком месте сделал, или что он кому-то сделал. Затем на верхнем уровне будет производиться идентификация персонажа и выравнивание сущностей, чтобы идентифицировать персонажа, является ли он человеком или объектом, является ли этот человек главным героем, каковы отношения с остальными людьми и т. д.

Второй шаг заключается в извлечении связи между ними на основе идентификации ролей. Каждая глава и каждое предложение раскапывают свои события, затем подводят итоги, и, наконец, весь текст образует единый контекст события.

Контекст события также предоставляет некоторые данные о поведении пользователей, поскольку пользователи тратят много времени на чтение только ключевых эпизодов.

Понимание содержания — неявные векторы

Четвертый — неявный вектор контента. Вектор заключается в том, что каждый контент имеет множество атрибутов, включая атрибуты точек интереса, авторов и тегов. Все они могут формировать график. Если вы ходите по графику случайным образом, вы можете Получается единая составная последовательность. Путем изучения ближайших соседей в этих сгенерированных последовательностях получается скрытое семантическое векторное представление каждого узла.

На сегодняшнем обмене все, спасибо.