В системе персонализированных рекомендаций интерес пользователя обычно понимается по атрибутам предмета интеллектуального анализа, чтобы построить модель рекомендации. Понять атрибуты элемента из поведения пользователя часто бывает относительно просто, обычно это простая статистика тегов. Чтобы углубиться в поведение пользователя, чтобы понять контент, Meipai использует поведение пользователя по щелчку и воспроизведению для кластеризации видеоконтента.Знания классификации для улучшения эффекта персонализированных рекомендаций.
На девятом Салоне технологий Meitu Бай Ян из Meitu представил решение для кластеризации видео, основанное на поведении пользователей, и обсудил некоторые методы кластеризации видео в рекомендательной системе Meipai.
Сценарии применения кластеризации в Meipai
Как показано на рисунке ниже, крайний левый снимок экрана — это пользовательский интерфейс домашней страницы Meipai. Пользователь может видеть 4-6 видео на этом интерфейсе. Сценарии применения кластеризации видео на этой странице следующие: Когда 6 видео отображаются на интерфейс имеет Когда два видео принадлежат одному и тому же кластеру, они не будут отображаться с интервалами. В этом случае мы выполним операцию, чтобы разбить один и тот же кластер для отображения видео, чтобы пользователи могли видеть больше категорий в ограниченном стр. к разнообразию результатов рекомендаций.
Второй — это прикладной сценарий поиска похожих видео. Нам часто нужно найти похожие видео определенного видео или его похожие видео.В этом случае мы можем использовать кластеризацию видео, чтобы найти, к какому кластеру принадлежит это видео, а затем найти похожие видео из этого кластера для достижения функции быстрого поиска.
Третий сценарий применения заключается в том, чтобы обнаружить несколько нишевых видеороликов с помощью кластеризации или найти несколькокороткий срокПопулярные видеоролики, помогающие продуктам улучшать операционные стратегии.
Четвертый сценарий является расширением стратегии рекомендаций, и кластеризация видео может использоваться для реализации некоторых общих стратегий рекомендаций. Мы можем узнать, какие кластеры интересуют пользователя, с помощью кластеризации.Например, кластеры, которые интересуют пользователя, — это еда и красота, затем мы рекомендуем видео на основе кластеров, которые интересуют пользователя.
В последнем сценарии кластеризация видео рассматривается какособенность, добавленный в модель сортировки для повышения производительности. Выше приведены пять важных сценариев применения кластеризации видео в Meipai.
Так как же найти содержание видео? Самый интуитивный способ — начатьвидеоконтент или изображенияЧтобы извлечь информацию, выраженную в этом видео, с точки зрения изображения, мы рассмотрим объекты в этом видео (например, еду и домашних животных на картинке) с точки зрения изображений; во-вторых, с точки зрения изображений.звукугол (например, фоновая музыка или аудио в видео); в-третьих, через видеотекст(например, описание видео, комментарии, субтитры и т. д.); наконец, черезОбложки видео, ключевые кадры, непрерывные скриншоты и т. д.Узнайте, о чем рассказывает видео.
В то же время вышеописанный метод имеет и недостатки:
Видеоконтент/изображения:
Требует предварительных знаний
текст:
Неполный охват, описание может быть неточным
Поэтому мы начинаем споведение пользователяДля анализа содержимого видео поведение пользователя определяетсяПортрет пользователяивидеопортретсоставляют. Сценарии приложений извлечения контента через поведение пользователей следующие: большинство массовых пользователей смотрят два видео, и можно сделать вывод, что два видео могут иметь одну и ту же аудиторию (то есть два видео связаны по содержанию). видео принадлежат к одному кластеру, этот методПредварительные знания не требуются.
Итак, какие проблемы необходимо решить с помощью кластеризации видео с поведением пользователей?
1. Массивные данные. Ежедневное поведение пользователей Meipai основано на массивных данных в единицах T-уровня, и модель должна обрабатывать массивные данные каждый день.
2. Модель быстро обновляется. Так как каждый день пользователи загружают много новых видео, необходимо как можно быстрее найти кластер, к которому относится это видео.
3. Интерпретируемость. Чтобы понять подразумеваемое значение каждого кластера, например, это видео относится как к еде, так и к красоте, можно сделать вывод, что это видео-шоу о поедании красоты.
Эволюция схем кластеризации видео
В ответ на вышеуказанные проблемы мы предложили четыре решения, как показано на рисунке, который является развитием наших четырех решений. От начальной тематической модели TopicModel до Item2vec и распространения ключевых слов до DSSM мы в основном будем говорить о процессе эволюции этих четырех моделей и онлайн-эффекте.
1.TopicModel
Во-первых, мы представляем тему кластеризации TopicModel видео, TopicModel на самом деле является классической моделью в области обработки естественного языка, которая может выкапывать темы каждого документа из многих документов. С помощью такой модели можно выяснить, к какой теме относится каждый документ и к какой теме относятся слова в документе. Предполагая, что при написании документа всего имеется 100 тем, мы сначала выберем тему документа из 100 тем в соответствии с распределением тем документа, а затем выберем тему из распределения тем слова. письмо. Затем TopicModel оценивает распределение документов и слов по темам, подсчитывая частоту слов и совпадение слов в каждом документе.
Так как же это относится к рекомендации Meipai? Во-первых, поведение пользователя можно понимать как документы, а затем видео, воспроизводимые или понравившиеся пользователям, можно понимать как слова, так что данные о поведении пользователей можно использовать в TopicModel для получения результатов кластеризации.
Так как же TopicModel соответствует трем упомянутым выше требованиям?
1. Обрабатывайте огромные объемы данных. TopicModel может решить проблему больших объемов данных за счет параллелизма данных;
2. Обновляйте быстро. Для нового видео мы можем быстро получить информацию о поведении пользователя в новом видео. Мы можем сделать вывод, к какой теме относится новое видео, на основе того, к какой теме принадлежит пользователь, чтобы быстро обновить модель темы.
3. Интерпретируемость TopicModel очень хорошая, мы можем интуитивно понять, что означает тема (кластеризация), а также мы можем получить распределение видео по каждой теме, чтобы судить о том, соответствуют ли результаты распределения действительности. понимание.
После решения трех проблем вы можете использовать TopicModel для первого решения, чтобы решить четыре наиболее распространенные проблемы тематических моделей:
1. Оценка модели. При оценке модели тематической модели необходимы соответствующие методы для оценки качества этой модели.
2. Метод моделирования. Как упоминалось выше, моделирование на основе поведения пользователя — это моделирование с помощью видео как слов, но есть и другие методы моделирования.
3. Количество тем (кластеров). Количество тем — это параметр, который часто необходимо корректировать в тематической модели.
4. Повторите кластеризацию. Структура тематической модели часто имеет множество похожих кластеров, что повлияет на сцену, в которой кластеры разбиты, что приведет к невозможности правильного разделения.
Первое, что нужно решить, этоОценка модели, и только найдя точный метод оценки модели, можно сравнить результаты каждой схемы.
Как показано на рисунке выше, передний план — это два часто используемых индикатора в тематической модели, а следующий рисунок — это тренд двух индикаторов в обучении модели. Эти два индикатора можно использовать для оценки сходимости модели.Конечно, эти два индикатора также можно использовать для простой оценки надежности качества модели. Результаты темы (кластеризации) вводятся в модель ранжирования, и о надежности эффекта модели кластеризации можно судить с помощью индекса модели ранжирования. Мы хотим знать, насколько хорошо такая схема кластеризации будет работать в последующих приложениях, поэтому мы вводим третью метрику: модель ранжирования.
Имея эти показатели для решения второй задачи:Моделирование. Первый пример выше построен с видео в качестве слова, затем, в свою очередь, пользователь может использоваться в качестве слова для моделирования, то есть видео — это документ, а пользователь — это слово.Сравнение трех показателей этих двух схем можно найти: При использовании пользователей в качестве слов все три показателя выше, чем у видеослов, но время его обучения больше, чем у видеослов, которое занимает до 5 часов. Поскольку популярное видео может быть воспроизведено 1 миллионом пользователей, тогда в документе будет 1 миллион слов, поэтому время обучения будет больше.
Как показано на рисунке выше, эффекты этих двух методов моделирования в модели сортировки: нижний светло-синий цвет — это базовая линия на линии, а ордината — это AUC модели сортировки.Мы обнаружили, что после введения темы модель, независимо от того, какая схема По сравнению с базовой онлайн-моделью тематическая модель имеет лучший эффект.
Сравнивая второй вопрос, мы обнаружили, что AUC этих двух схем моделирования не сильно отличается.Чтобы сократить время обучения, мы склонны использовать слова в качестве схемы. При подсчете количества различных тем мы обнаружили, что между темно-синим AUC и желтым AUC также есть определенная разница, тогда третья проблема должна быть решена в это время, то естьВыбор количества тем.
Количество тем тесно связано со сценариями применения и классифицируется и обсуждается в соответствии со сценариями применения, упомянутыми выше:
1. Кластерное обнаружение нишевых видео. Попробуйте найти кластеры с низкой частотой и длинным хвостом, и вам придется расширить количество тем.Согласно опыту, когда количество тем составляет тысячу или более, эффект кластеризации видео с длинным хвостом лучше.
2. Внедрение тематической модели в модель ранжирования.. Сравнивая AUC количества тем, нижняя часть по-прежнему остается базовой. Каждая строка на приведенном выше рисунке представляет собой AUC различных тем. Мы обнаружили, что когда количество тем увеличилось до 100–200, AUC существенно не изменилась. Скриншоты являются результатами исследовательских экспериментов. Мы провели множество исследовательских экспериментов. После этого количество тем устанавливается равным 150 по показателям модели ранжирования, таким как AUC и GAUC.
3. Распад кластера. В случае кластеризации и разбиения мы обнаружили, что чем меньше количество тем, тем лучше индекс совместного использования. Например, если количество тем равно 100, то шеринг в сети на человека увеличивается на 8%, но показатель воспроизведения несколько снижается, тогда при увеличении количества тем до 200 показатель шеринга увеличивается только на 2%. , но его показатели воспроизведения также несколько улучшились.
Почему это происходит? Таким образом, можно понять, что когда количество тем относительно невелико, гранулярность кластеризации будет относительно грубой, то есть пользователи увидят больше категорий в 6 видеороликах на одном экране. Допустим, девушка делится видео по укладке или монтажу в кругу друзей, она может поделиться только одним видео по укладке и монтажу в день, то есть пользователь реже делится одним и тем же типом видео в течение дня, поэтому после увеличения ее видеорекомендации категория, больше При высокой вероятности попадания в категорию, которой пользователь хочет поделиться, индекс обмена улучшается. Однако после разрыва категории видео, которые интересуют пользователей, отступят, и воспроизведение пользователя будет ниже.
Почему оба показателя улучшаются при увеличении количества тем? Основная причина заключается в том, что разделение улучшает разнообразие видео, детализация кластеризации становится более тонкой, а интересующие видео не так просто вернуться, что улучшает взаимодействие с пользователем и увеличивает выпадающее меню пользователя, что, естественно, приводит к улучшению. показателей.
Последний вопросПохожие темы. Например, после обучения одной модели мы получаем две похожие темы, каждая из которых представляет собой видео с ловлей кукол. Если мы не разберемся с этими двумя кластерами, мы не сможем точно разбить видео с ловлей кукол. Результаты тематической модели могут получить распределение темы видео, затем транспонирование распределения темы видео даст вектор темы, каждое измерение этого вектора темы представляет собой вероятность того, что видео относится к теме, а затем после получения вектора темы , вы можете сделать Вычислить сходство каждой темы, а затем вы можете объединить похожие темы, чтобы вы могли объединить две куклы или даже некоторые другие похожие кластеры, чтобы повысить точность кластеризации.Выше приведена тема, которую мы собрали. Модель применяется к некоторые проблемы кластеризации видео.
Суммируйте преимущества и недостатки TopicModel:
преимущество:
Тематическая модель относительно проста в использовании, ей нужно только разобраться в поведении пользователя, а затем понять все поведение пользователя как документ и использовать его в тематической модели для получения желаемого эффекта кластеризации.
недостаток:
Степень детализации кластеризации относительно грубая. Например, в области НЛП, если вы изучите тему многих корпусов новостей, вы можете получить тему развлекательных новостей, которая на самом деле может быть более мелкозернистой (получить кластеризацию звезд, относящихся к развлекательным новостям). , а тематическая модель очень сложна для мелкозернистой оптимизации.
Как получить более точную кластеризацию? Можно ввести вторую схему, Item2vec.
2.Item2vec
Item2vec на самом деле представляет собой вариант применения Word2vec к рекомендуемому нами сценарию.
Во-первых, давайте кратко представим модель SkipGram. Как показано в правой части рисунка выше, это пример положительной выборки.Основная цель SkipGram — выяснить, какие слова похожи друг на друга в своем контексте. Таким образом, можно понять, можно ли использовать модель поведения пользователя, аналогичную моделированию тематической модели, понимать видео как слова и использовать модель, чтобы узнать, на что похожи видео. Итак, как обучить модель? Синее поле на рисунке представляет входное слово, а белое поле представляет выходное слово. Мы объединяем два слова, ввод и вывод, в пару слов. Такие пары слов вводятся в структуру сети, и сеть может изучать каждое слово. , Какие слова имеют похожие контексты.
Каковы преимущества этой модели по сравнению с тематической моделью? Почему он более гранулированный? Сравните это выбранное окно с тематической моделью. Тематическая модель анализирует полное поведение пользователя. Например, поведение пользователя в течение одного месяца понимается как документ, затем тематическая модель подсчитывает информацию о совпадении видео в течение месяца. , в то время как Item2vec Что более важно, так это совместное появление видео рядом с этим видео, поэтому корреляция между видео, на которые нажали сегодня, очевидно выше, чем корреляция между видео, на которые нажали сегодня, и видео, на которые нажали месяц назад. Поэтому степень детализации этой модели будет выше, чем у тематической модели. Второе преимущество заключается в том, что это простая сетевая структура, которую можно добавить к другим задачам глубокого обучения для сквозной оптимизации.
У векторов слов есть интересная аналогия в области NLP, и у векторов видео тоже есть интересные аналогии. Например, в прошлогодней популярной мини-игре WeChat «Прыгай и прыгай» мы нашли такой вектор, когда пошли искать видео кота, играющего с прыжком, а затем вычли его из видеовектора играющей собаки. с прыжком, и мы можем сравнить его с Он приблизительно равен видеовектору кошки минус видеовектор собаки, и эта аналогия представляет результирующий видеовектор. Это подразумевает не только простую информацию об объектах, но также может скрывать некоторую другую иерархическую информацию.Точно так же видеовектор танцующих красивых девушек и затем вычитание танцующих красивых парней можно сравнить с видеовектором красивых девушек минус видео красивых мальчиков.
ДалееКластеризация контраста, чтобы повысить степень детализации кластеризации, мы сравниваем силу кластеризации с аналогичными видеороликами видео. Взяв в качестве примера видео о еде, найдите модель темы и наиболее похожие видео в Item2vec для сравнения и обнаружите, что смысл кластеризации в модели темы — информация более высокого уровня.Эти похожие видео относятся к еде, и только несколько видео могут быть разделены на рецепты и кулинарные рецепты, два похожих видео, полученных Item2vec, очевидно, могут казаться более точными из-за обложки: они оба едят шоу-видео, и даже содержание очень похоже Очевидно, что новая схема кластеризации более гранулярна.
Мы добавили кластеризацию видео в качестве функции в модель ранжирования, и AUC был значительно улучшен.Оглядываясь назад на AUC тематической модели, упомянутой выше, улучшение в то время составляло всего одну-две тысячные, в то время как агрегация Item2vec Функция класса достигает 9 из 1000, и эффект очень значителен.
Второй сценарий — это план расширения стратегии рекомендаций, который заключается в использовании векторов видео, созданных моделью, для кластеризации видео, поиска кластеров, которые интересуют пользователя, а затем вызова рекомендуемых видео, сортировки вызванных видео и сделайте рекомендацию, это Онлайн-эффект стратегии рекомендаций увеличился на 4%, и эффект также очень очевиден.
После введения Item2vec суммируйте преимущества и недостатки:
преимущество:
Сила кластеризации более тонкая.
недостаток:
Плохая стабильность.
Почему вы говорите, что он менее стабилен? Предположим, что есть куча видеовекторов, которые нужно кластеризовать, и для кластеризации используется простейший метод (например, kmeans).После первой кластеризации кластер с идентификатором 0 может представлять еду.Затем во второй раз мы используем эти векторы снова сгруппированы. Является ли этот кластер с ID 0 все еще едой? Конечно нет, поэтому его стабильность относительно плохая.
На что влияет плохая стабильность? Если идентификатор кластера добавляется в качестве функции в модель сортировки, но скрытое значение идентификатора кластера различно для каждого обучения, это окажет большое влияние на разработку функций, и необходимо выполнить утомительную инженерную работу, поэтому мы я хочу сделать более стабильный результат кластеризации.
Есть некоторые низкочастотные видео, основанные на поведении пользователей, поэтомуплохая точность.
Итак, как решить две вышеупомянутые проблемы? мы представляемтекстовое сообщение, используя текст, чтобы обобщить значение кластеризации и повысить точность низкочастотных видео.
3.KeywordPropagation
И использование текста для кластеризации также будет иметь проблемы.Покрытие будет меньше, на примере Meipai далеко не каждый пользователь готов заполнять описание видео при загрузке видео, вторая проблема этоОшибка в описании видео, при заполнении описания пользователь может захотеть потереть горячую точку, и он напишет какие-то горячие темы в описании, но по факту видео не относится к этой теме, третье - при извлечении ключевых словНеобходимо поддерживать библиотеку слов с длинным хвостом, потому что мы хотим найти какую-то нишу, свежие видеокластеры.
Чтобы ответить на эти три вопроса, мы исследовали методы коммуникации. Предположим, перед вами граф, узлы в графе — это видео, а связь между видео и видео — это ребро между узлами в графе. В некоторых видео есть ключевые слова, а в некоторых нет, поэтому вы можете использовать границы между узлами, чтобы распространять ключевые слова на видео без ключевых слов.
Сначала поместите узлы в графинициализация, дать каждому узлу (видео) уникальную метку, видео с ключевыми индикаторами будет напрямую назначать ему ключевые слова, а узлы без ключевых слов сохранят инициализированную уникальную метку; второй шаг использует отношения между видео и видеораспространять этикетку; после распространения метки мыОбновите теги для каждого видео, видео может получить много тегов, переданных из других видео, самый простой способ слияния — взять тег с наибольшим количеством тегов, переданных видео, на этот раз в качестве нового тега узла. Затем оцените изменение метки всего графа после процесса распространения.Если изменение всего графа относительно невелико (небольшое), его можно считать сошедшимся.
Как использовать поведение пользователя для ее решения? Для построения этого графика можно использовать поведение пользователей. Например, если 100 пользователей смотрят видео А и видео Б одновременно, то два узла видео А и Б будут соединены ребром с весом 100, а узлы в графе и ребра можно использовать для распространения ключевых слов.
Просмотрите предыдущий процесс: сначала ключевые слова видео будут извлечены из описания, комментариев и субтитров видео, затем этот график будет построен на основе поведения пользователя, а затем ключевые слова будут распространяться с помощью графика, так что каждый видео может получить ключевые слова распространения и, наконец, использовать N-Gram для кластеризации, а в Интернете использовать метод Bi-Gram.
Эффект от этого ключевого слова следующий:
-
Улучшить покрытие
Многие видео без ключевых слов могут получить ключевые слова за счет распространения, и уровень охвата в настоящее время достиг 95%.
-
Исправление ошибок текстового описания
Как показано на картинке выше, видео в левом нижнем углу представляет собой видео о плетении и укладке, но его описание звучит так: «#Я скучаю по тебе, танец жестов#Двойной щелчок, чтобы поддержать его», это описание не имеет ничего общего с видео на все, это просто простое поведение горячей точки. На основе графика, построенного на основе поведения пользователя, также есть некоторые моделирующие и редактирующие видео вокруг этого видео редактирования стиля, поэтому исходные неправильные ключевые слова могут быть покрыты точными ключевыми словами, чтобы завершить исправление ошибок в описании видео.
-
Откройте для себя кластеры нишевых видео
Если в базе данных ключевых слов нет слова «тибетский танец», точные ключевые слова этих видео не могут быть извлечены, и кластеризация не может быть завершена, но обнаружение таких нишевых кластеров может быть реализовано с помощью распространения ключевых слов. Например, есть 100 видеороликов "Тибетский танец". На первом этапе инициализации ключевого слова, поскольку ключевое слово не может быть извлечено, каждому из этих 100 видео будет присвоен уникальный тег. При распространении тега он будет распространяться. с окружающими видео «Тибетский танец», и, наконец, их метки (ключевые слова) будут сходиться к метке с наибольшим весом между их узлами. Поэтому можно найти нишевые кластеры, которые изначально не сохранялись в базе данных ключевых слов.
Просмотрите модель кластеризации Item2vec: сначала используйте тематические модели и векторы слов для кластеризации, которая не контролируется, затем используйте распространение ключевых слов для полуконтролируемой модели, используйте видео с ключевыми словами и ключевыми словами между видео и видео, чтобы завершить полуконтролируемую контролируемую модель. . Итак, существует ли контролируемый способ повысить производительность кластеризации видео? На этот раз мы представили глубокую модель DSSM.
4.DSSM
Начальный сценарий применения DSSM:поиск. Краткое введение в сцену поиска, ввод слова «Meipai» в поиске Baidu приведет к получению множества страниц, связанных с Meipai, может быть официальный сайт Meipai, новости, связанные с Meipai, или энциклопедия Meipai Baidu, мы можем нажать Meipai Take the официальном сайте, что кликовое поведение можно понимать как положительный образец, то же самое можноКлик на видео понимается как положительный образец, а затем интерпретировать поведение и видео, которые не нравятся пользователям, как отрицательные образцы.
Объясните DSSM в сценарии НЛП: во-первых, вам нужно ввести содержимое.Как показано на рисунке выше, буква Q слева может быть понята как ввод слова в Baidu, а буква D справа может быть понята как заголовок. веб-страницы, отображаемой после поиска. Далее давайте посмотрим на второй уровень хеширования слов, который в основном представляет собой уменьшение размерности в сценариях НЛП, например, размерность 500 000 слов уменьшается до 30 000. Как это сделать в видеосцене Meipai? Доступ к этому уровню можно получить, используя модели, предложенные выше (например, тематическая модель, Item2vec). Затем идет отображение DNN в 128-мерное семантическое пространство, а затем слой сопоставления, который использует косинусное сходство для вычисления сходства Q и D. Наконец, сходство преобразуется в апостериорную вероятность с помощью softmax. Когда модель применяется к рекомендации Meipai, Q можно понимать как пользователя, а D можно понимать как видео, а затем использовать поведение пользователя для слабо контролируемого обучения. Почему ее называют слабо контролируемой моделью? Основная причина заключается в том, что негативные образцы (т. е. демонстрация видео без кликов) не обязательно не нравятся пользователям, а некоторые видео без кликов могут просто иметь более низкий рейтинг, поэтому их называют слабо контролируемыми моделями.
DSSM принимает следующий план улучшения в Meipai: во-первых, существует множество сценариев воспроизведения видео в Meipai, наиболее распространенный — воспроизведение на главной странице, а также есть другие источники, например воспроизведение видео в списке отслеживаемых авторов, и после поиск Клики по видео и т.д., цель или поведенческие характеристики кликов пользователей в разных источниках разные. Мы разделяем разные источники, позволяем им совместно использовать пользовательский режим и изучаем цель пользователей, воспроизводящих видео в разных источниках; как упоминалось выше, нижний вход DSSM представляет собой набор слов, поэтому мы представили LSTM, надеясь, что модель может узнать больше контекстной информации, чтобы улучшить модель, чтобы узнать некоторые долгосрочные интересы некоторых пользователей.
Оглядываясь назад на эффект, вызванный DSSM, AUC тематической модели была улучшена на 0,1% в начале, Item2vec улучшилась на 0,9% и, наконец, DSSM улучшилась на 1,3%, эффект очень очевиден. И следует отметить, что первые две модели (особенно тематическая модель) требуют очень больших обучающих данных, которые могут занять две недели или даже один месяц поведения пользователя, в то время как DSSM требуется только два или три дня данных о поведении, чтобы получить лучшее. результат.
Оглядываясь назад на пути развития наших четырех схем кластеризации, мы видим, что в начале использовалась тематическая модель, потому что она использовалась для сравненияПростой, и его интерпретируемость очень сильна; затем следует сцена мелкозернистой кластеризации, поэтому цитируется схема кластеризации Item2vec; третья схема распространения ключевых слов в основном использует текст для стабилизации кластеризации и улучшения некоторых низкочастотных эффектов кластеризации. видео; последняя схема DSSM использует контролируемый способ улучшения результатов пользователей, видео векторов.
перспективы на будущее
прежде всегоМногоуровневый, наша кластеризация видео в настоящее время имеет только один уровень, на самом деле мы можем получить много кластеров, например, еда может также получить малатанг, макароны, торт и другие кластеры, и эти три кластера иерархически связаны.Но в настоящее время, наши решения не имеют смысла иерархии, и мы можем использовать смысл иерархии текста для решения проблемы иерархической кластеризации.
Второйв реальном времени, мы надеемся сделать кластерный анализ онлайн, обновить, к какому кластеру принадлежит видео, и еще хотим получить новое видео онлайн, Когда у него будет небольшое количество поведения пользователя, кластер видео будет получен немедленно.
ТретийТочность, Существует множество решений для степени точности. Например, функции портрета пользователя или видеопортреты могут быть введены в DSSM для улучшения вектора видео. После улучшения вектора видео можно получить более точную кластеризацию видео.
Это три направления, которых мы хотим достичь в краткосрочной перспективе.