Метод обнаружения горячих тем для массовых социальных коротких текстов.

Добро пожаловать в сообщество Tencent Cloud +, чтобы получить больше обширной технической практики Tencent по галантерее ~

Эта статья написанаБольшие данные Tencent QQОпубликован вКолонка «Облако + сообщество»

С развитием и накоплением социальных сетей создание, распространение и потребление контента прочно вошли в жизнь людей. Затем в поле зрения людей вошла работа по контент-анализу. В последние годы появились различные продукты для анализа общественных тенденций, и крупные компании использовали свои собственные ресурсы, чтобы захватить место.

Платформа анализа общественных тенденций использует методы обработки естественного языка и машинного обучения для анализа данных и предоставляет пользователям помощь в анализе общественного мнения, анализе конкурентных продуктов, маркетинге данных и создании имиджа бренда. Среди них проблема обнаружения горячих точек является неотъемлемой частью анализа общественных тенденций. Обнаружение горячих точек Анализируя массивные данные (эта статья посвящена текстовым данным), он извлекает контент, на который обращают внимание релевантные люди.

В нашем бизнес-сценарии быстрое и эффективное обнаружение тем в реальном времени из массовых коротких текстов социальных сетей может помочь учащимся, изучающим продукты, операции и связи с общественностью, лучше привлечь пользователей. Однако создание грамматически правильных и благонамеренных тем непосредственно из объемных текстов — непростая задача. В этой статье в основном представлен относительно простой и эффективный метод, используемый при создании темы.

так называемая тема

В настоящее время коллекция тем многих платформ контента поддерживается соответствующими стратегиями продуктов или коллегами по эксплуатации. Например, разрешите пользователям настраивать тему и помечать ее специальным символом, например «#белый день#». В некоторых текстовых сценариях без этих условий нам нужно напрямую извлекать горячие темы или горячие события из массовых пользовательских социальных текстов. Целью этой статьи является автоматическое обнаружение горячих событий или горячих тем в массовых социальных коротких текстах.

Много смежной работы, выделение темы решается методом тематического анализа, с использованием тематической модели (LDA и т.п.), кластеризации и других методов, но некоторые тематические слова или родственные слова каждой темы выводятся по этой идее напрямую не сгенерированная тематическая фраза. Идея извлечения событий или суммирования текста может рассматриваться как решение проблемы извлечения горячих тем в таких сценариях, но для этого часто требуются контролируемые данные. В этой статье представлена простая и практичная попытка выделить актуальные темы.

конкретные методы

В этой статье предлагается метод извлечения горячих тем из извлечения горячих слов. Ниже представлена общая блок-схема метода: сначала извлекаются горячие слова, а затем на основе горячих слов выполняется тематическое извлечение. Следующие две части представлены подробно.

Извлечение горячих слов

Основная идея заключается в использовании частотных градиентов слов и методов сглаживания.

Как показано на рисунке выше, на популярность слов влияет множество аспектов.

Общее влияние на рынок: в течение дня и рано утром, в выходные и рабочие дни, в праздничные и обычные дни общее количество сообщений в социальных сетях будет сильно колебаться.
Влияние между словами: может быть, какой-то абзац в корпусе внезапно станет очень популярным, что приведет к тому, что некоторые слова, которые обычно не связаны между собой, сразу станут популярными словами.
Периодическое влияние: циклические изменения, такие как 24 часа, недели, месяцы, солнечные термины и т. д., часто приводят к тому, что малозначительные слова, такие как «Доброе утро», «Понедельник» и «Март», становятся популярными словами.
Тенденция к себе: это горячая информация, которая нас волнует больше всего. Наш алгоритм хочет идентифицировать и проанализировать эти внезапные и постепенно увеличивающиеся количества связанных слов, вызванные событиями.

Принимая во внимание вышеуказанные влияющие факторы, мы осуществляем извлечение горячих слов из следующих аспектов.

1,предварительная обработка: в основном это включает в себя такие методы, как дедупликация текста, распознавание рекламы и т. д., для выполнения некоторой работы по устранению раздражающих данных.

2. **Градиент:** основной показатель приращения частоты слов.

3. **Байесовское среднее:** метод использования внешней информации, особенно ранее существовавших убеждений, для оценки среднего значения генеральной совокупности.

Типичные применения байесовского усреднения включают ранжирование голосов пользователей, ранжирование рейтингов продуктов, сглаживание рейтинга кликов по объявлениям и многое другое.

Взяв в качестве примера рейтинг голосования пользователей, очень мало пользователей голосуют и набирают баллы, и средний балл может быть недостаточно объективным. В это время вводится внешняя информация, и предполагается, что есть еще несколько человек (C человек), которые проголосовали и все дали средний балл (m баллов). Баллы этих людей добавляются к баллам существующих пользователей, а затем усредняются, средний балл может быть пересмотрен, чтобы повысить объективность окончательного балла в некоторой степени или под углом. Его легко получить: при небольшом количестве голосов оценка будет стремиться к средней, чем больше количество голосов, тем ближе результат байесовского среднего к среднему арифметическому реальных голосов, а добавленные параметры будут иметь меньшее влияние на окончательный рейтинг.

4. **Расчет тепловой оценки: **Используйте байесовское среднее для корректировки градиентной оценки.

Здесь средняя частота слов в формуле равна C в формуле байесовского усреднения, а средний балл равен m в формуле байесовского усреднения. Другими словами, при извлечении горячих слов мы используем среднее значение оценок градиента в качестве предшествующего m и среднюю частоту слов в качестве C.

При извлечении популярных слов можно понять, что каждый раз, когда слово появляется, это эквивалентно подсчету популярности слова.

Частота слов мала, а это означает, что количество людей, оценивающих, невелико, а неопределенность оценки велика, и для коррекции и сглаживания необходимо использовать среднюю оценку. Здесь вы можете получить высокие оценки некоторых слов с помощью нескольких слов. Например, слово появилось 18 раз сегодня и 6 раз вчера. Градиентная оценка здесь относительно высока, она составляет 0,75, но на самом деле такое слово более вероятно. чтобы не быть горячей темой слово.

Слова с большой частотностью слов, намного превышающей среднюю частотность слов, также представляют большое количество оценок. Тогда оценка будет ближе к вашей фактической оценке, а влияние средней оценки станет меньше. Это разумно, например, слово, которое изначально было порядка миллиона, на следующий день увеличилось в три раза, и значение популярности здесь значительно увеличилось.

5. **Отличие:** Основное внимание здесь уделяется решению проблемы периодического влияния горячих слов. Конкретный метод очень прост: временной интервал для сравнения должен включать несколько периодов времени с очевидными эффектами. Например, для горячих слов, рассчитанных по часам, лучше всего сравнивать сегодня и вчера в один и тот же момент времени.

6. **Модель совпадения: **Для горячих слов, которые являются словами совпадения, выполните слой скрининга.

С помощью частых наборов элементов, word2vector и других методов обнаруживается связь между одновременно встречающимися словами. Используя информацию о совместно встречающихся словах, проводится цикл отсева популярных слов и извлекаются наиболее ценные горячие слова, чтобы избежать избыточности информации.

7. **Анализ временных рядов**. Учитывайте более подробные исторические факторы.

С помощью анализа временных рядов частотности слов можно более подробно выделить краткосрочные, долгосрочные и циклические горячие точки; можно заранее предупредить некоторые более ценные горячие слова; можно проанализировать тенденцию роста популярных слов и так далее.

Подводя итог, мы анализируем популярность слова с помощью байесовского среднего скорректированного показателя градиента слова в периодическом временном интервале и используем информацию о совпадении слов в корпусе для дальнейшей фильтрации популярных слов. С помощью анализа временных рядов получены характеристики и тенденции роста популярных слов.

извлечение темы

Горячие слова извлекаются, но способность слова выражать события или темы ограничена. Здесь мы начинаем с горячих слов и далее извлекаем темы.

Задача извлечения темы здесь также разделена на два этапа.Первый шаг — найти некоторые фразы-кандидаты темы; второй шаг использует идею внимания, чтобы найти более важную фразу из фразы-кандидата в качестве выходной темы.

Извлечение фразы-кандидата

Извлечение фраз-кандидатов в основном основано на теории информационной энтропии с использованием следующих особенностей.

1,Степень внутренней агрегации — взаимная информация

Это должно начаться с информационной энтропии. Информационная энтропия используется для измерения ожидаемого значения случайной величины, информации о переменной

Чем больше энтропия, тем больше возможных состояний может появиться и тем более она неопределенна, т. е. тем больше количество информации.

Взаимная информация может указывать на силу связи между двумя случайными величинами. Определяется следующим образом:

Преобразуйте приведенное выше уравнение, чтобы получить:

Представляет неопределенность Y; представляет неопределенность Y, когда X известно, и становится условной энтропией Y, когда X уже известно. Затем можно увидеть, что он представляет собой величину, на которую неопределенность Y уменьшается за счет введения X. Чем больше значение, тем меньше неопределенность появления Y после появления X, то есть вероятность появления Y тоже, то есть тем теснее связь между X и Y. наоборот.

В практических приложениях степень внутренней агрегации фразы — это степень внутренней агрегации между словами. Для фразы мы выбираем комбинацию слов, которая максимально снижает неопределенность, чтобы проиллюстрировать степень внутренней агрегации фразы.

2,Богатство контекста - левая и правая информационная энтропия

Только что было упомянуто, что информационная энтропия описывает размер количества информации. Тогда, если левая и правая информационная энтропия фразы больше, т. е. слово

Чем больше возможных ситуаций группы left и right, тем богаче левые и правые словосочетания; это означает, что фраза может обсуждать больше вещей в разных контекстах, и тем более вероятно, что она может объяснить событие или тему самостоятельно.

3.Распространено ли оно — это интуитивно измеряется частотностью фразы.

Уточнение темы

Для определенного горячего слова после выбора пакета фраз-кандидатов каждая фраза содержит разные слова и содержит разное количество информации. Например, для горячего слова «Париж» 9 марта мы извлекли фразы-кандидаты, в том числе «болельщики Парижа», «игроки Парижа», «устранение Парижа», «несчастный Париж», «Барселона переворачивает Париж», «Париж, Франция». ", "Парижская неделя моды". Но во фразах «игроки «Барселоны», «болельщики Парижа», «устранить Пэрис», «несчастный Париж» и «ПСЖ Франция» слова «игрок», «болельщики», «устраненный» и «несчастный» используются во многих случаях. др. Часто в контексте их направленность неясна; «Париж, Франция» даже более информативен, чем отдельно взятое место. В то время как «Barcelona Reversing Paris» и «Paris Fashion Week» также содержат более конкретную информацию — футбольные матчи, команды, результаты, места или показы мод и т. д., направление событий становится более ясным. Здесь нам нужно отфильтровать фразы-кандидаты темы.

Основная основа или идея скрининга на самом деле такая же, как и у механизма Внимание, ключ в том, чтобы найти важные слова. Например, в паре с «Париж», «Барселона», «Разворот» и «Неделя моды» содержат больше информации и большую значимость, чем «болельщики», «игроки», «бедствующие» и «Франция». Вполне возможно, что слова «Барселона», «Переворот» и «Неделя моды» не часто встречаются в других не относящихся к делу корпусах, в то время как «фанаты», «игроки», «огорченные» и «Франция» часто появляются в разных корпусах. . Поэтому в нашей задаче Внимание можно определить через идею TF-IDF.

В частности, он предназначен для измерения специфичности каждого слова во фразе. У нас есть основания полагать, что слова «Barcelona», «Reversal» и «Fashion Week» имеют более высокую вероятность появления в соответствующем корпусе, содержащем «Paris». Оценка способности репрезентации события или темы фразы-кандидата s горячего слова может быть получена по следующей формуле:

Среди них N — количество слов во фразе-кандидате, i-е слово, содержащееся во фразе-кандидате, а Корпус (w) представляет соответствующий корпус, содержащий слово w.

С другой стороны, нам также нужно учитывать частоту фраз, Чем больше фраз появляется, тем важнее событие.

Подводя итог, мы используем показатель способности представления события или темы и частоту появления фраз-кандидатов, чтобы точно отсеивать связанные темы горячих слов.

вопросы и ответы

использоватьnlpДелать сжатие предложений?

Связанное Чтение

Как достигается предельная частота сбоев ниже 0,01%?

Рекомендация Aegis - Краткое описание применения алгоритма MAB

Как логистическая регрессия используется для идентификации и вовлечения новых пользователей

Эта статья была разрешена автором для публикации сообщества Tencent Cloud +, исходная ссылка: https://cloud.tencent.com/developer/article/1155587?fromSource=waitui.

Добро пожаловать в сообщество Tencent Cloud+ или подпишитесь на общедоступную учетную запись WeChat облачного сообщества (QcloudCommunity), чтобы как можно скорее получить больше массовой технической практики по сухим товарам~

Огромный технический практический опыт, все вСообщество Юнцзя!