Тематическая модель LDA для интеллектуального анализа текста

Автор: Чжэн Пей

введение

Тематические модели являются важным инструментом для анализа текста и в последние годы привлекли большое внимание как в промышленности, так и в научных кругах. В области интеллектуального анализа текста большой объем данных неструктурирован, и из информации трудно напрямую получить релевантную и ожидаемую информацию.Метод интеллектуального анализа текста: тематическая модель (тематическая модель) может идентифицировать темы в документах и добывать Информация скрыта в корпусе и имеет широкий спектр применений в таких сценариях, как агрегирование тем, извлечение информации из неструктурированного текста и выбор признаков.

Скрытое распределение Дирихле (LDA) является наиболее репрезентативной моделью среди них. LDA был предложен Блеем, Дэвидом М., Нг, Эндрю Ю., Джорданом в 2003 году, чтобы сделать вывод о распределении документов по теме. оно может:

Откройте для себя тематические модели китайского, английского и тибетского языков в корпусе;
Аннотировать документы по темам;
Используйте аннотации для организации, систематизации, суммирования и поиска документов.

1. Что такое тема?

С точки зрения словарного запаса: сделать статью или несколько статей общим представлением, скрытой семантикой, образцом совместно встречающихся слов, классом данных совместно встречающихся слов и слабой таблицей классификации;

С точки зрения распределения вероятностей: каждая тема представляет собой распределение вероятностей всех слов, испытуемый приписывает более высокую вероятность словам, которые появляются в одно и то же время, времена, которые появляются в одно и то же время, связаны друг с другом;

С точки зрения машинного обучения тематические моделиИерархические байесовские сетиТипичные приложения, применяемые к данным (документам или изображениям): каждый документ содержит несколько тем, скрытые переменные играют роль представления основной структуры между документами, тематические модели основаны на предположениях набора слов или наборов функций (т. заказ бессмысленный).

2. Почему это скрыто?

Байесовские сети описывают взаимосвязь между переменными следующими способами:

Ребро, соединяющее узлы, и направление ребра;
Распределения вероятностей узлов — априорные и апостериорные распределения.

Для переменных отношений, которые не могут быть точно описаныВнедрить скрытые узлырешать. В LDA явление совместного появления слов описывается апостериорной вероятностью скрытого узла, и ему присваивается более высокая вероятность Формула может быть выражена как:

P\left(y, x_{1}, \ldots, x_{n}\right)=P(y) \prod_{n=1}^{N} P\left(x_{n} | y\right)

Повторяющаяся структура представлена следующей структурой блока:

Как показано на рисунке, узлы представляют переменные, а ребра — возможные зависимости. Неявные узлы полые, наблюдаемые узлы сплошные, а прямоугольники представляют собой повторяющиеся структуры. Тогда можно получить общую структуру модели LDA:

3. Процесс генерации документов модели LDA

В модели LDA документ создается следующим образом:

распределение от ДирихлеТематическое распределение документа, которое я сгенерировал путем выборки в;
Отличие от темы - это распространениеСредняя выборка генерирует тему j-го слова документа i. $Z_{i,j}$ ;
распределение от ДирихлеСредняя выборка для создания тем, распределение этой области, соответствующее j $Ф_{z_{i,j}}$ ;
из полиномиального распределения слов $Ф_{z_{i,j}}$ Средняя выборка для окончательного создания слов $ω_{i,j}$ .

Процесс обработки вышеупомянутого LDA — это процесс его разборки на один документ и один документ для обработки, а не собственно процесс обработки. Чтобы сгенерировать каждое слово в документе, бросают два игральных кубика. Первый раз бросается кубик с темой документа, чтобы получить тему, а второй раз бросается кубик с темой, чтобы получить слово. Каждый раз, когда слово в каждом Документ создан Два броска игральной кости выполняются в непосредственной близости друг от друга.

Если в корпусе всего N слов, то Бог бросит в общей сложности 2N кубиков, попеременно бросая кубики с темой документа и кубиком со словом темы. Но на самом деле есть некоторые броски кубиков, которые можно поменять местами, и мы можем отрегулировать порядок бросков 2N кубиков эквивалентно: первые N раз бросают только кубики по теме документа, чтобы получить темы всех слов в корпусе, а затем на основе на полученном каждом Номер темы слова.После N раз бросаются только кости темы-слова, чтобы сгенерировать N слов. На данный момент вы можете получить:

\begin{array}{l}p(\vec{w}, \vec{z} | \vec{\alpha}, \vec{\beta})=p(\vec{w} | \vec{z}, \vec{\beta}) p(\vec{z} | \vec{\alpha}) \\ =\prod_{k=1}^{K} \frac{\Delta\left(\vec{\phi}_{K}+\vec{\beta}\right)}{\Delta(\vec{\beta})} \prod_{m=1}^{M} \frac{\Delta\left(\vec{\theta}_{m}+\vec{\alpha}\right)}{\vec{\alpha}}\end{array}

4. Обучение модели LDA

Согласно совместному распределению вероятностей в предыдущем подразделе $p(\vec{\omega}, \vec{z})$ , мы можем сэмплировать его с помощью сэмплирования Гиббса. Мы получаем формулу выборки Гиббса для модели LDA как:

p\left(z_{i}=k | \overrightarrow{\mathbf{z}}_{\neg i}, \overrightarrow{\mathbf{w}}\right) \propto \frac{n_{m, \neg i}^{(k)}+\alpha_{k}}{\sum_{k=1}^{K}\left(n_{m, \neg i}^{(k)}+\alpha_{k}\right)} \cdot \frac{n_{k, \neg i}^{(t)}+\beta_{t}}{\sum_{t=1}^{V}\left(n_{k, \neg i}^{(t)}+\beta_{t}\right)}

Согласно формуле, у нас есть две цели:

Оцените параметры в модели $\vec{\varphi}_{1}, \cdots, \vec{\varphi}_{K}$ и $\theta_{1}, \cdots, \theta_{M}$ ;
Для нового документа мы можем рассчитать распределение тем этого документа $\vec{\theta}$ .

Тренировочный процесс:

За каждое слово в каждом документе в корпусе $\omega$ , случайным образом присвоить теме номер z;
Повторное сканирование корпуса для каждого слова $\omega$ , используйте формулу выборки Гиббса, чтобы сэмплировать его, найти его тему и обновить его в корпусе;
Повторяйте шаг 2, пока выборка Гиббса не сойдется;
Матрица частоты совпадения тем и слов статистического корпуса, которая является моделью LDA;

В соответствии с этой матрицей частот тематических слов мы можем рассчитать вероятность каждого p (слово | тема) для расчета параметров модели. $\vec{\varphi}_{1}, \cdots, \vec{\varphi}_{K}$ , который представляет собой игральную кость с темой-словом K. И параметры кости соответствующие документам в корпусе $\theta_{1}, \cdots, \theta_{M}$ Его также можно рассчитать в описанном выше процессе обучения.Поскольку частотное распределение тем в каждом документе подсчитывается после сходимости выборки Гиббса, мы можем вычислить каждый p(topic|doc) вероятность, то можно вычислить каждую $\theta_{m}$ .

из-за параметра $\theta_{m}$ Он связан с каждым документом в обучающем корпусе и нам бесполезен для понимания новых документов, поэтому держать модель LDA в конечном хранилище проекта вообще не нужно. Обычно в процессе обучения LDA-модели мы усредняем результаты n итераций после сходимости Gibbs Sampling для оценки параметров, чтобы качество модели было выше.

С моделью LDA для вновь поступившего документа нам нужно только рассмотреть формулу выборки Гиббса в $\vec{\varphi}_{k t}$ Часть стабильна и инвариантна и обеспечивается моделью, полученной из обучающего корпуса, поэтому в процессе выборки нам нужно только оценить тематическое распределение документа. $\theta$ Просто отлично. Конкретный алгоритм выглядит следующим образом:1. Для каждого слова в текущем документе $\omega$ , случайным образом инициализировать номер темы z; 2. Используя формулу выборки Гиббса, для каждого слова $\omega$ , измените его тему; 3. Повторяйте описанный выше процесс до тех пор, пока выборка Гиббса не сойдется; 4. Подсчитайте распределение тем в документе, которое $\vec{\theta}$ .

5. Реализация проекта

Адрес исходного кода проекта:Тихо потяните Can /workspace/5…

6. Ссылки

[1] Блей Д. М., Нг А. И., Джордан М. И. Скрытое распределение Дирихле [J], Журнал исследований в области машинного обучения, 2003 г., 3 (январь): 993-1022. [2] LDA Mathematical Gossip Rickjin.

##о насMo(URL:momodel.cn) — это онлайн-платформа моделирования искусственного интеллекта, поддерживающая Python, которая может помочь вам быстро разрабатывать, обучать и развертывать модели.

Клуб искусственного интеллекта Мо организованMoКлуб, инициированный R&D и продуктовыми командами компании, посвященный снижению порога разработки и использования искусственного интеллекта. Команда имеет опыт обработки и анализа больших данных, визуализации и моделирования данных, реализовывала многодисциплинарные интеллектуальные проекты и обладает полным спектром возможностей проектирования и разработки от начала до конца. Основными направлениями исследований являются анализ управления большими данными и технологии искусственного интеллекта, и их использование для продвижения научных исследований, основанных на данных.