Special contributions from Luke Pryor and Brad Lightcap.
Раскрытие информации: я являюсь личным инвестором Toutiao.
Используя машины и глубокое обучение для создания и обслуживания контента, китайская компания Toutiao создала продукт с вовлечением, аналогичный продукту социальных сетей — и все это без социальной графики.
Toutiao, один из флагманских продуктов Bytedance*, может быть самым большим приложением, о котором вы никогда не слышали — это как все новости, которые вы читаете, YouTube и TechMeme в одном. Более 120 миллионов человек в Китае используют его каждый день. самое интересное о Тутиао это не то, что люди потребляют такой разнообразный контент в одном месте… этоhow Toutiao serves it up. Without any explicit user inputs, social graph, or product purchase history to rely on, Toutiao offers a personalized, high quality-content feed for each user that is powered by machine and deep learning algorithms.
Идя на шаг дальше, чем просто предоставление контента, алгоритмы Toutiao также создают контент: во время Олимпийских игр 2016 года бот Toutiao писал оригинальные новостные репортажи, публикуя истории о крупных событиях быстрее, чем традиционные СМИ. статьи, написанные ботами, имели показатели чтения (количество прочтений и количество показов) в соответствии с теми, которые в среднем были написаны людьми-писателями с более низкой скоростью и более высокой стоимостью.
The average user spends more than 74 minutesкаждый день в Toutiao — это больше, чем средний пользователь тратит на Facebook1, and more than twice what they spend on Snapchat 2. More than half that time is spent watching short-form videos; this coupled with over 10 billion video views per day makes Toutiao the YouTube of China (along with, of course, everything else it offers).
Как Toutiao добился этого? Особенно без массовых потребительских платформ такого масштаба, как те, которые организованы китайскими конгломератами Alibaba, Baidu и Tencent? его рост за счет какого-либо одного фактора, а скорее взаимодействия между многими тактическими и стратегическими решениями, которые он принял, начиная с запуска, в частности, пятью ключевыми преимуществами, все из которых я описал ниже.И хотя «суперприложения» не так распространены в США я считаю, что в этом случае есть определенные уроки, которые могут вдохновить других на создание собственных продуктов и платформ.
But first, a bit of background
Toutiao запущен в 2012 году. Приложение использует алгоритмы машинного обучения и алгоритмы глубокого обучения для поиска и отображения контента, который пользователи сочтут наиболее интересным. Базовая технология Toutiao узнает о читателях на основе их действий — касаний, пролистываний, времени, потраченного на чтение. каждая статья, время суток, когда пользователь читает, паузы, комментарии, взаимодействие с контентом и местоположение, но не требует явного ввода пользователя и не строится на его социальном графе.Сегодня каждый пользователь измеряется миллионами размеров, и в результате получается персонализированный, обширный и высококачественный контент для каждого пользователя, каждый раз, когда он открывает приложение.
Источники: Snapchat — заявка S-1, Instagram —Recode. Facebook – отчет о доходах за первый квартал 2016 года.
The Five Hidden Forces Behind Toutiao
1: Mind the gap, seize the opportunity
Несмотря на то, что для стартапа важно время, для создания вызывающего привыкание приложения требуются обдуманные усилия. Время Toutiao было выбрано случайно, но использование этого уникального момента было преднамеренным. Toutiao был запущен, когда в Китае началось использование смартфонов: проникновение мобильной связи увеличилось практически с нуля в 2010 г. до 65% к 2014 г.3Более того, многие крупнейшие поставщики контента еще не разработали мобильные приложения или сайты, оптимизированные для мобильных устройств, что означает что информация и развлечения, оптимизированные для мобильных устройств, были редкостью. К середине 2012 года на китайской платформе Android существовало всего шесть значимых новостных приложений. Четыре из них были прямыми расширениями существующих новостных порталов с ограниченной оптимизацией для мобильных устройств. а два других были агрегаторами, которые полагались исключительно на медленный и безличный ввод редактора, чтобы определить, какие истории показывать.Кроме того, спрос китайской аудитории на контент (как статьи, так и видео) не удовлетворялся китайскими социальными сетями. такие как WeChat и Weibo.WeChat запущен как мессенджер и по сей день имеет закрытую социальную сеть (т.е. обмен/моменты доступны только друзьям).
Toutiao заполнила этот пробел, предложив простое в использовании, персонализированное, информативное и захватывающее приложение для мобильных устройств. С самого начала Toutiao было очень легко начать использовать — достаточно было загрузить его. Не нужно было создавать учетная запись и пароль, чтобы связать его с социальными сетями (если пользователь этого не хочет) или предоставить информацию об интересах или предпочтениях.Простой дизайн приложения также сделал его интуитивно понятным для использования без предварительных знаний или учебных пособий.Для любого приложения, стимулирующее начальное взаимодействие — переход от загрузок к DAU — общеизвестно сложен.Обычно теряются пользователи на каждом этапе процесса из-за уныния, замешательства или раздражения.
Название приложения Jinri Toutiao (что в переводе с китайского означает «сегодняшние заголовки») и значок приложения были броскими для пользователей, что привело к значительному росту числа пользователей. Кроме того, это был первый раз, когда различные новостные статьи были собраны в одном месте. очень Первые дни Toutiao отслеживал информацию о каждом пользователе — его нажатия, прокрутки, время, потраченное на статью и местоположение, для включения механизма рекомендаций, который мы обсудим позже в этом посте.Через месяц после запуска Toutiao стал персонализированным агрегатор новостей для нескольких своих пользователей. Продукт, единственный в своем роде и изящно разработанный в то время, привел к быстрому росту. Они достигли 1 млн DAU всего через четыре месяца после запуска. Toutiao дал новым интернет-пользователям что-то «делать». когда их мобильное время все еще было доступно.Toutiao обновлял приложение почти еженедельно в течение первого года, поскольку оно постоянно обновляло, итерировало и улучшало свои функции и алгоритмы, и это привело к улучшению удержания с течением времени.
В последующие годы конкуренция за долю внимания пользователей на мобильных устройствах резко возрастет: количество мобильных приложений, доступных в Китае, увеличилось более чем в три раза за три года с 2012 по 2015 год.4. Но раннее лидерство Toutiao означало, что к моменту появления конкурентов у него уже был важный и ценный плацдарм.
The image below shows the personalized feed of two different users.
2: A data network effect deliberately built across the entire system
You can have all the algorithms in the world, but without an addictive product there is no data, and without data, no algorithm can make the system better. Matt Turck has written about the power of the data network here. Проще говоря, чем больше пользователей используют ваш продукт, тем больше данных они вносят. Чем больше данных они вносят, тем умнее становится ваш продукт. Чем умнее ваш продукт (например, лучшая персонализация, рекомендации), тем лучше он служит вашим пользователей, и они с большей вероятностью будут часто возвращаться и вносить больше данных, создавая тем самым благотворный цикл.
Создавая вызывающий привыкание продукт, Toutiao собирает данные о вовлеченности своих пользователей. Эти данные вводятся в алгоритмы Toutiao, что, в свою очередь, еще больше повышает качество продуктов. В конечном счете, компания планирует использовать этот эффективный цикл для оптимизации. каждый этап того, что они называют «жизненным циклом контента»: создание, курирование, рекомендация и взаимодействие.
Creation
С момента изобретения письменного языка создание контента было исключительной прерогативой людей. Toutiao надеется изменить это. Это началось с Xiaomiingbot, искусственного интеллекта, который уже публиковал
на сегодняшний день на платформе более 8000 историй. Он дебютировал во время Олимпийских игр в 2016 году, когда публиковал истории о крупных событиях быстрее (примерно через 2 секунды после окончания мероприятия), чем традиционные СМИ.
статьи пользуются рейтингом чтения (количество прочтений и количество показов) в соответствии с теми, которые в среднем создаются авторами-людьми с более низкой скоростью и более высокой стоимостью.
Below is a screenshot of an article written by the Xiaomingbot describing the results of the tennis match between Andy Murray and Juan Martin Del Potro during the 2016 Olympics.
To achieve this, Toutiao had to overcome a couple significant technical challenges:
Во-первых, для написания историй о результатах олимпийских игр требовались данные, и Toutiao извлекла их из трех источников: [а] обновления результатов в реальном времени от олимпийской организации, [б] изображения от компании по сбору изображений, которую она недавно приобрела, чтобы найти релевантные данные. визуальные средства массовой информации и [c] отслеживание текстовых комментариев об игре в режиме реального времени.Все началось с четырех видов спорта — настольного тенниса, тенниса, бадминтона и женского футбола, которые было легче повторить с технической точки зрения (настольный теннис, теннис и бадминтон). являются «пошаговыми» играми, а правила игры проще, чем в других видах спорта. Уникальный доступ к высококачественному источнику данных для женского футбола позволил охватить четвертую игру.)
Во-вторых, Toutiao должен был выяснить, как объединить данные из этих трех источников, чтобы обеспечить внутренне непротиворечивую и релевантную историю, что было гораздо более сложной задачей, чем даже доступ к данным и их интерпретация в первую очередь. должны были соответствовать результатам мероприятия, а также соответствовать выводам из комментариев, что, в свою очередь, потребовало от команды искусственного интеллекта Toutiao интегрировать возможности обработки естественного языка с контекстным распознаванием изображений. В итоге мы получили комбинацию основанного на грамматике представления для создания шаблонов историй, алгоритма ранжирования для выбора релевантных предложений из живых текстовых комментариев и алгоритма сопоставления изображения и текста, чтобы связать все это вместе. использует сверточные нейронные сети для анализа контента в изображениях-кандидатах. Обучаясь на исторических данных, модель может выбрать наиболее релевантное и визуально привлекательное изображение для истории. Они также использовали глубокое обучение от последовательности к последовательности. алгоритмы для обобщения существующих историй в ежедневные основные моменты и предложения лучших заголовков для статей.Система использует рекуррентные нейронные сети для вычисления векторного представления для предложений, и эти векторы предложений далее передаются в модель ранжирования для подбора кратких резюме для каждой статьи.
Результат этих усилий — 450 опубликованных рассказов объемом от 500 до 1000 слов во время Олимпийских игр в Рио — имел огромный успех. Их показатели чтения (количество прочтений, деленное на количество показов) были наравне с теми, которые были созданы с меньшими затратами и более высокими затратами. На сегодняшний день Toutiao расширил эту возможность за пределы спорта до более чем 8000 историй и усердно работает над тем, чтобы закрыть некоторые из оставшихся технических лазеек, которые делают писателей-людей узнаваемыми.
Curation
В первые дни существования Toutiao основной движущей силой были «мягкие новости» — сплетни о знаменитостях, статьи о поп-культуре и образе жизни. Это не было случайностью. В отличие от официальных новостей, которые распространялись известными
государственных источников новостей, софт-контент распространялся в Интернете на множестве отдельных сайтов. Короче говоря, не было центрального места для доступа к контенту: пользователи, которые искали его, должны были тратить значительное время на посещение
на разных сайтах, и не было уверенности, что они получают самую интересную информацию. Toutiao изменил это. За счет владения, централизации и оптимизации распространения он сократил время, необходимое пользователю для поиска контента, почти до нуля, и это
повысили их уверенность в том, что они читают самые интересные истории, что создало реальную ценность для пользователей.
По своей сути курирование контента представляет собой двустороннюю проблему: куратор должен находить контент, а не только предоставлять его пользователям.Первое требует посещения веб-сайтов, выявления историй и сбора соответствующих метаданных.Второе требует постоянного обновление центрального репозитория историй и создание как можно большего количества персонализированных версий. Обе задачи требуют интенсивного процесса, и алгоритмы имеют явное преимущество перед людьми. он запустил веб-порталы, где редакторы-люди выполняли эту работу, и использование Toutiao алгоритмов дало ему большое преимущество перед ручными конкурентами.
Скорость, с которой система могла делать то, что требовало гораздо больше времени от редакторов-людей, напрямую превращалась в ценность для пользователей Toutiao.Toutiao могла собирать больше контента быстрее и с меньшими затратами, создавая большое преимущество в бизнесе для клиентов значение напрямую связано с качеством контента, релевантностью и частотой обновления.Использование алгоритмов также означало, что каждый пользователь мог иметь свой собственный, основанный на интересах и постоянно обновляемый профиль – на что ни у одного редактора никогда не было бы времени сделать.
Toutiao также использует алгоритмы для выявления и фильтрации некачественного контента. Платформа распространения контента хороша настолько, насколько хорош контент, который она распространяет. Дни массового распространения стандартного контента (например, газет, журналов) прошли. В мире Toutiao платформа распространения обслуживает только то, что интересно ее пользователям. Ложные отчеты и спам являются основными проблемами в медиа-индустрии. Базовая технология Toutiao использует алгоритм классификации текста, чтобы определить, является ли статья является фейковой новостью, использует кликбейтные заголовки или не соответствует стандартам качества Toutiao.Здесь Toutiao также опирается на модераторов пользователей, чтобы помечать поддельные статьи, и нанимает модераторов-людей для арбитража спорных сообщений.
Recommendation
Content recommendation is the feature for which Toutiao is best-known, and to which it owes much of its success and reputation. The use of machine and deep learning algorithms at this stage of the content lifecycle
is what has sets Toutiao apart from its peers, and is key driving continued user growth and retention.
The question that the recommendation engine is trying to solve is simple: what are the one hundred articles the platform can recommend to each user that are most likely to result in continued engagement?Это вопрос к основному - команда ИИ признала, что 100 заголовков являются «порогом» удержания (пользователи, которые не сохраняют в течение длительного времени, как правило, резко уходят после просмотра ~ 100 заголовков, аналогично правилу Facebook «10 друзей»). вопрос на которые люди не способны ответить: ни один человек-редактор никогда не мог регулярно и быстро определять оптимальный набор заголовков для каждого из новых пользователей приложения.
As simple as the question may be, the solution is complex. For every new user, Toutiao blends signals from three key areas to create a feed that it hopes is engaging and will push users over the 100-headline threshold:
- Профили пользователей: изначально создаются на основе понимания приложением демографических данных пользователя (их возраста, местоположения, пола и социально-экономического статуса).
- Content: to understand the content of articles, Toutiao turns to natural language processing to determine if the article is trending, whether it is long or short, and the timeliness of the article (some articles are evergreen while others have a very short half-life)
- Context: pertain to location-related data (localities like geography, weather, local news, etc.)
Базовые алгоритмы затем должны идентифицировать наиболее сильное статистическое соответствие между профилем пользователя, его собственным профилем контента и контекстом, и это должно делаться на постоянной основе.Это соответствие предназначено для оптимизации процента статей, которые пользователь читает (нажимает) и процент статей, которые пользователь заканчивает (измеряется временем, проведенным на странице).Когда пользователь впервые открывает приложение, система использует основные данные в профиле для сопоставления: пользователь в Silicon Долина, например, могут с большей вероятностью нажимать на статьи о технологиях.Система также обязательно показывает различные статьи для оценки интереса/незаинтересованности—при этом может помочь пользователям обнаружить ранее неизвестный контент и проверить свои потенциальные интересы. Когда приложение собирает информацию о пользователях, эти рекомендации уточняются и совершенствуются. Механизм быстро учится — большинству пользователей требуется менее одного дня, чтобы успешно изучить их интересы (на что указывает показатель чтения 80%). Результатом является сильное удержание пользователей (> 45%), аналогичное социальным сетям, и одно из самых больших затрат времени на одного пользователя в приложениях в мире.
Interaction
As Toutiao has grown, interaction on the platform has become more and more central to its user value proposition. Rather than leaving it to the users to find each other, Toutiao uses underlying algorithms to help enable
meaningful connections. Nowhere is this more relevant than in its recently developed question-and-answer feature, where the AI team was tasked with developing a matching engine that links a question-asker with someone who can answer them. Toutiao
recently published a paperдля конференции ACL, рекламирующей эти результаты.Предложенный ими «Условно-ориентированный нейронный ответ на вопрос с подходом к крупномасштабным базам знаний» достигает точности
на 75,7% в наборе данных из 108 000 вопросов и превосходит текущее состояние дел (лучше, чем методы Memory Network и LTG-CNN в контрольном наборе данных) с отрывом в 11,8%.
Базовая технология Toutiao не только создает лучший пользовательский опыт, но и служит укреплению конкурентного рва компании.Более привлекательный контент и взаимодействия означали, что пользователи будут проводить больше времени на платформе, а они потратили на платформу, тем лучше стало использование алгоритмов. Чем умнее система, тем лучше она может распространять контент — и тем больше создателей контента она привлекает. Это, в свою очередь, привлекает больше пользователей на платформу. И, таким образом, родился сильный эффект сети передачи данных - мощность системы растет в геометрической прогрессии с масштабом системы. С тех пор появились конкуренты (особенно после успеха Toutiao), однако было трудно соответствовать точность и эффективность рекомендательного механизма Toutiao, ведущие к дальнейшему быстрому росту Toutiao.
3. From content aggregation to content destination
It is not uncommon to see apps strive to move from content aggregation to content destination. However it is extremely challenging from a brand and creative strategy to make that happen. Here is how Toutiao did it. Toutiao offered two significant benefits to content contributors over the platforms.
Strong incentives via revenue sharing that enabled writers to make money from very early on. In 2014, Toutiao rolled out incentive programs to attract more content creators to the platform. These ranged from offering office space, tools, minimum guarantees per month if they hit certain key milestones (e.g., # of articles, read rates) to sharing revenue via monetization. Toutiao began monetizing via ads since 2014 and this enabled revenue sharing opportunities with their content contributors.
Это была функция, которая запустила Toutiao, но по мере роста Toutiao превратилась в более глубокую платформу для создания контента, потребления и связей.Сегодня на нем размещено более 800 000 аккаунтов Toutiaohao — профессиональных СМИ, блоггеры и влиятельные лица, которые используют платформу для обмена статьями, изображениями и видео с пользователями Toutiao. На нем размещается гораздо больше пользователей, которые делятся короткими сообщениями через Wei Toutiao. В результате сегодня на Toutiao размещается широкий спектр контента, начиная от от новостей до акций, от науки до отношений. На 20 основных категорий приходится только 60% контента, и ни одна категория не дает более 10% контента.
Below is an example of a variety of content that a user can choose from (the screenshot only displays the 40 of the 50+ channels users can choose from):
Larger and more relevant audienceчем другие платформы, что напрямую привело к увеличению присутствия бренда для авторов контента. Почти все участники создают и распространяют контент на всех платформах. Но для многих участников у них есть возможность привлечь больше трафика с Toutiao благодаря сильному механизму рекомендаций. Одним из примеров является «Huanzi TV» (Huanzi TV). Этот создатель создает короткие видеоролики о жизни и обычаях людей в сельской местности Китая. Каждый из его видео имеет в среднем 700 000 просмотров, в то время как просмотры в его официальном аккаунте Wechat составляют менее 1/40 просмотров на Toutiao. платформа в Китае.
4. Unencumbered by formats
Instead of being stubborn about their core format (e.g., listicles, long form content and news), Toutiao was quick to expand to other formats when the data suggested they should. In 2015, at the time where most video platforms in China are focusing on long-form videos, Toutiao added video capability and started to support PGC short video content (typically 1-5 mins) on its platform. Toutiao had observed an increase in supply of video content in 2014 as connectivity and infrastructure had improved significantly by 2014. Additionally, Toutiao rolled out several incentive programs to promote video content creation on its platform. The transition from text to image to video was similar to what most US platforms have seen to date.
Позже, в марте 2016 года, Toutiao запустила Toutiao Video (которое теперь переименовано в Watermelon Video), отдельное приложение для коротких видео PGC, работающее на том же механизме алгоритмов, что и Toutiao. релевантные видео для пользователей в зависимости от их графика интересов. Toutiao теперь является «платформой для перехода» для короткого видеоконтента PGC. Более половины ежедневного использования 74 минут для каждого пользователя тратится на просмотр коротких видео, превышение превышение 10 миллиардов просмотров видео каждый день.
5. Early monetization and alignment with product
Toutiao достиг беспрецедентного уровня доходов за короткий промежуток времени (5 лет с момента запуска и 3 года с начала монетизации), и примечательно, что они делают это без использования каких-либо социальных графов или истории покупок продуктов. планирует достичь в этом году дохода более 15 млрд юаней (> 2,2 млрд долларов США) — это одно из самых быстрорастущих приложений с точки зрения доходов в истории Интернета.
Of the many things that Toutiao does, one element that is core to its model more than any other: it is good at identifying what its users want to see. It is fitting, then, that its business model maps perfectly to that strength. Toutiao generates revenue by matching relevant ads to users, using the same proprietary technology behind their content targeting. This has three important benefits:
Во-первых, это уменьшило влияние монетизации на пользовательский опыт и, возможно, даже улучшило его работу! Пользователи обычно считают рекламу навязчивой и унижающей их опыт, но реклама, ориентированная на пользовательские предпочтения, в меньшей степени. показывая рекламу, которая очень актуальна для интересов пользователя, Toutiao во многих отношениях действует как механизм обнаружения продукта.
Во-вторых, это увеличило ставки, которые Toutiao может взимать с рекламодателей.Одной из ключевых проблем в рекламе является определение того, как выборочно размещать ваши объявления перед самыми высокими потенциальными клиентами, и рекламодатели тратят бесчисленные часы. и огромные суммы денег, пытающиеся эффективно настроить таргетинг.Технология Toutiao, которая изначально решает эту проблему таргетинга, представляет собой решение и избавляет рекламодателей от необходимости платить за это большую премию.
Third, since the primary use case is to read and view content, users are more receptive to seeing relevant targeted ads and therefore there is more inventory available to advertisers.
Сочетание всех этих трех факторов приводит к гораздо более высоким показателям кликабельности Toutiao по сравнению с конкурентами.По данным сторонних опросов, CTR Toutiao на 200% выше, чем у конкурентов.
Impact on the Future of Content Discovery
Toutiao урезает свою конечную цель, которая, по сути, состоит в том, чтобы стереть концепцию поиска и просто обслуживать агрегированный, гиперрелевантный контент.Мы видели, как «агрегаторы контента» приходят и уходят в США, но возможно, что они являются идея, время которой еще впереди, и что более совершенные алгоритмы станут катализатором успеха. Facebook и Twitter сегодня являются важнейшими источниками потребления новостей в США. Другой гигант в этой комнате — Google, который в июле объявил что лента в его мобильном приложении будет расширять использование машинного обучения, чтобы лучше показывать пользователям информацию, которую они сочтут наиболее актуальной и интересной, — ленту, которая включает все типы новостей.
Special thanks to the Toutiao team, Sharon Pope, Craig Cannon, Sonal Chokshi, Kat Manalac, Daniel Gross, and Ram Parameswaran for reading multiple drafts of this essay.
*About Bytedance
Founded in March 2012 in Beijing, Bytedance is at the global forefront of innovating artificial intelligence technologies. Bytedance is dedicated to optimizing the connection of people with information, as well as promoting content creation and communications. Its flagship product, Toutiao, is the largest AI-powered content discovery platform in China, it delivers personalized content recommendations to every user based on their interests. Bytedance owns a series of products celebrated by the users around the world, including Topbuzz, Flipagram and a series of UGC short video apps.
Bytedance established an AI Lab in 2016, leveraging extensive and complex datasets to conduct state-of-the-art research in artificial intelligence.
Notes
1. Source: Facebook Q1 2016 Earnings Call.
2. Source: time.com/4272935/сауна….
3. Source: woo woo woo.business Insider.com/China-Hashi-no….
4. Source: Уууууууууууууу, скажи что подскажет ему.com/statistics/….