【Диссертация】EANN

Введение

Фальшивые новости могут использовать мультимедийный контент, чтобы вводить читателей в заблуждение и распространять информацию, негативно влиять на публичные события и даже манипулировать ими.Как идентифицировать возникающие события как фейковые новости в социальных сетях — это новая и уникальная задача. В этой статье предлагается комплексная структура под названием Event Adversarial Neural Network (EANN) для обнаружения поддельных новостей на основе мультимодальных функций. Вдохновленный состязательными сетями, EANN включает дискриминаторы событий на этапе обучения для прогнозирования вспомогательных меток событий, а соответствующие потери можно использовать для оценки несхожести представлений признаков между разными событиями.

EANN состоит из трех основных частей: мультимодального экстрактора признаков, детектора фейковых новостей и дискриминатора событий. Средство извлечения мультимодальных признаков взаимодействует с детектором фальшивых новостей для выполнения основной задачи распознавания фейковых новостей, в то время как средство извлечения мультимодальных признаков пытается обмануть средство распознавания событий, чтобы изучить инвариантные представления событий. Автоматическое извлечение признаков из текстового и визуального контента статей с использованием сверточных нейронных сетей (CNN).

содержание исследования

Обзор модели

Целью модели является изучение переносимых и различимых представлений признаков для обнаружения фальшивых новостей.Для достижения этого модель EANN объединяет три основных компонента: мультимодальный экстрактор признаков, детектор фальшивых новостей и дискриминатор событий, как показано на рисунке 1. :

Поскольку сообщения в социальных сетях часто содержат различные формы информации (например, текстовые сообщения и прикрепленные изображения), мультимодальные экстракторы признаков (включая экстракторы текстовых и визуальных признаков) используются для обработки различных типов входных данных.
После изучения текстовых и визуальных представлений скрытых признаков они объединяются вместе, чтобы сформировать окончательное представление многомодальных признаков, и как детектор фальшивых новостей, так и распознаватель событий строятся поверх средства извлечения многомодальных признаков.
Детектор фейковых новостей принимает в качестве входных данных представление изученной функции и предсказывает подлинность публикации. Распознаватель событий идентифицирует тег события каждого сообщения на основе этого скрытого представления.

Мультимодальный экстрактор признаков

Извлечение текстовых признаков

Входными данными экстрактора текстовых признаков является последовательный список слов в статье, а сверточные нейронные сети (CNN) используются в качестве основного модуля экстрактора текстовых признаков.

Как показано на рис. 1, модифицированная модель CNN под названием Text-CNN, архитектура которой показана на рис. 2, использует несколько фильтров с окнами разного размера для захвата признаков с разной степенью детализации для выявления поддельных новостей.

Конкретные шаги экстрактора текстовых признаков заключаются в представлении каждого слова в тексте в виде вектора встраивания слова. первое в предложении $i$ соответствует слову $k$ Вектор встраивания размерного слова может быть выражен как: $Y_i \in \mathbb{R}^k$ , так что один содержит $n$ Словосочетание может быть выражено следующим образом:

T_{1:n}=T_1\oplus T_2\oplus ...\oplus T_n

$\oplus$ Представляет операцию конкатенации векторов. Размер окна $h$ Фильтр свертки преобразует последовательные предложения в предложение $h$ последовательность слов в качестве ввода и вывода функции для $i$ последовательные слова, начинающиеся с $h$ Возьмем в качестве примера последовательность слов, операция фильтрации может быть выражена как:

t_i=\sigma (W_c \cdot T_{i:i+h-1})

в, $\sigma()$ функция активации ReLU, $W_c$ Представляет вес фильтра. Примените операцию ко всем словам предложения, чтобы получить вектор признаков этого предложения:

t=[t_1,...,t_{n-h+1}]

за $t$ Используйте операцию max pooling, чтобы получить максимальное значение, тем самым извлекая наиболее важную информацию.

Для извлечения текстовых признаков разной степени детализации применяются окна разных размеров. Для определенного размера окна есть $n_h$ разные фильтры. Предположим, есть $c$ возможные размеры окон, всего $c\times n_h$ фильтр. Текстовые функции, полученные после операции максимального объединения, могут быть выражены как $R_{T_c}\in \mathbb{R}^{c\times n_h}$ , и, наконец, полносвязный слой используется для получения окончательного представления текстовых функций (с $R_T \in \mathbb{R}^p$ представление), а текстовый элемент и представление визуального элемента имеют одинаковую размерность (обозначается как $p$ ):

R_T=\sigma(W_{tf}\cdot R_{T_c})

$W_{tf}$ — весовая матрица полносвязного слоя.

Извлечение визуальных признаков

Образец входного изображения экстрактора визуальных признаков обозначается как $V$ , предварительно обработанный VGG19 используется для извлечения визуальных признаков.На последнем слое сети VGG19 добавляется полносвязный слой для настройки размера окончательного представления визуальных признаков до $p$ . определение $p$ Размерные визуальные признаки выражаются как $R_V\in \mathbb{R}^p$ , операция последнего слоя в экстракторе визуальных признаков может быть выражена как:

R_V=\sigma(W_{vf}\cdot R_{V_{vgg}})

$R_{V_{vgg}}$ представляет собой представление визуального признака, полученное из предварительно обученного VGG19, $W_{vf}$ — вес полносвязного слоя в экстракторе визуальных признаков.

текстовые функции $R_T$ и визуальные особенности $R_V$ будут объединены в мультимодальное представление объекта, записанное как:

R_F=R^T\oplus R_V \in \mathbb{R}^{2p}

Определите экстрактор мультимодальных признаков как $G_f(M:\theta_f)$ , $M$ представляет собой набор текстовых и визуальных образцов сообщений, является входом для экстрактора мультимодальных функций и $\theta_f$ представляет параметр обучения.

детектор фейковых новостей

Детектор поддельных новостей развертывает полносвязный слой с использованием softmax для прогнозирования подлинности содержимого сообщения, чьи входные данные являются выходными данными мультимодального экстрактора признаков. $R_F$ . Определите детектор поддельных новостей как: $G_d(\cdot ; \theta_d)$ , $\theta_d$ Указывает все параметры. Включаем детекторы фейковых новостей $i$ Результат предсказания поста определяется как $m_i$ , то вероятность того, что пост является фейковой новостью, равна:

P_{\theta}(m_i)=G_d(G_f(m_i;\theta_f);\theta_d)

использовать $Y_d$ Представляет набор образцовых меток и использует кросс-энтропию для расчета потерь при прогнозировании:

L_d(\theta_f,\theta_d)=-\mathbb{E}_{(m,y)~(M,Y_d)}[ylog(P_{\theta}(m))+(1-y)log(1-P_{\theta}(m))]

Найдя оптимальные параметры $\hat{\theta_f},\hat{\theta_d}$ минимизировать функцию потерь.

Основная проблема в обнаружении фальшивых новостей связана с событиями, не охваченными обучающим набором данных, что требует от учащегося способности учитьсяПереносимые функции представления возникающих событий. Однако прямая минимизация потерь при обнаружении может помочь обнаружить только ложные новости о событиях, содержащихся в обучающем наборе данных, так что учащийся может получить только знания, относящиеся к конкретному событию (например, ключевые слова) или шаблоны, в то время как нам нужно позволить модели узнать больше, чем может захватитьПредставление общего свойства для общих свойств во всех событиях, это представление должно иметьинвариантность событий, и не содержит свойств, специфичных для события.

Для достижения вышеуказанной цели необходимо снять уникальность каждого события, а именно:Измеряйте непохожесть представлений объектов между разными событиями и удаляйте их, чтобы зафиксировать инвариантные к событиям представления объектов..

дискриминатор событий

Дискриминатор событий — это нейронная сеть, состоящая из двух полносвязных слоев и соответствующих функций активации, целью которых является корректная классификация постов как $K$ одно из этих событий, определяя дискриминатор событий как $G_e(R_F;\theta_e)$ , $\theta_e$ представляет его параметры. Определим потерю дискриминатора событий с кросс-энтропией:

L_e(\theta_f,\theta_e)=-\mathbb{E}_{(m,y)~(M,Y_e)}[\sum^k_{k=1}1_{[k=y]}log(G_e(G_f(m;\theta_f));\theta_e)]

Цель дискриминатора событий — найти параметры $\hat{\theta_e}$ минимизировать функцию потерь.

$L_e(\theta_f,\theta_e)$ Используется для оценки разницы в распределении разных событий. Большая потеря означает, что распределения, представленные разными событиями, похожи, а изученные признаки не зависят от событий. Для устранения уникальности каждого события необходимо искать параметры $\hat{\theta_f}$ максимизировать $L_e(\theta_f,\hat{\theta_e})$ .

Это отражаетВраждебная сеть, с одной стороны, мультимодальный экстрактор признаков пытается обмануть дискриминатор событий, чтобы максимизировать потери различения, а с другой стороны, дискриминатор событий стремится обнаружить специфичную для события информацию, содержащуюся в представлении признаков, тем самым идентифицируя событие.

интеграция модели

На этапе обучения:

Мультимодальный экстрактор признаков: $G_f(\cdot;\theta_f)$ , который нужно совместить с детектором новостей $G_d(\cdot;\theta_d)$ чтобы свести к минимуму потери при обнаружении $L_d(\theta_f,\theta_d)$
Мультимодальный экстрактор признаков: $G_f(\cdot;\theta_f)$ , попробуйте обмануть дискриминатор событий $G_e(\cdot;\hat{\theta_e})$ Различение потерь путем максимизации событий $L_e(\theta_f,\theta_e)$ обмануть дискриминатор событий $G_e(\cdot;\hat{\theta_e})$
дискриминатор событий $G_e(R_F;\theta_e)$ На основе мультимодального представления признаков каждое событие идентифицируется при минимальной потере идентификации события.

Подводя итог, определим окончательный проигрыш этого противостояния как:

L_{final}(\theta_f,\theta_d,\theta_e)=L_d(\theta_f,\theta_d)-\lambda L_e(\theta_f,\theta_e)

$\lambda$ Контроль компромисса между целевой функцией обнаружения фейковых новостей и целевой функцией распознавания событий (статья $\lambda=1$ ).

Для параметров оптимизации EANN пытается найти одну из конечных целевых функцийточка перевала, что возможно для оптимальной точки:

(\hat{\theta_f},\hat{\theta_d})=arg\min_{\theta_f,\theta_d}L_{final}(\theta_f,\theta_d,\hat{\theta_e}) \\ \ \\ \hat{\theta_e}=arg\max_{\theta_e}L_{final}(\hat{\theta_f},\theta_e)

Вышеупомянутая проблема решается стохастическим градиентным спуском.

Здесь используется слой обращения градиента (GRL), который играет роль тождественной функции на прямой стадии, а градиент умножается на $-\lambda$ , а затем передать результат предыдущему слою на этапе обратного распространения. GRL можно удобно добавить между многомодальным экстрактором признаков и дискриминатором событий, как показано на обратном уровне, показанном на рисунке 1.

\theta_f \leftarrow \theta_f-\eta(\frac{\partial L_d}{\partial \theta_f}-\lambda\frac{\partial L_e}{\partial \theta_f})

Чтобы стабилизировать процесс обучения, уменьшайте скорость обучения следующим образом. $н$ :

\eta'=frac{\eta}{(1+\alpha \cdot p)^\beta},\alpha=10,\beta=0.75

$p$ представляет собой линейное изменение, соответствующее прогрессу обучения от 0 до 1.

Подробные шаги событийно-состязательной нейронной сети (EANN) обобщены в алгоритме 1: