【Диссертация】EANN

алгоритм

Введение

Фальшивые новости могут использовать мультимедийный контент, чтобы вводить читателей в заблуждение и распространять информацию, негативно влиять на публичные события и даже манипулировать ими.Как идентифицировать возникающие события как фейковые новости в социальных сетях — это новая и уникальная задача. В этой статье предлагается комплексная структура под названием Event Adversarial Neural Network (EANN) для обнаружения поддельных новостей на основе мультимодальных функций. Вдохновленный состязательными сетями, EANN включает дискриминаторы событий на этапе обучения для прогнозирования вспомогательных меток событий, а соответствующие потери можно использовать для оценки несхожести представлений признаков между разными событиями.

EANN состоит из трех основных частей: мультимодального экстрактора признаков, детектора фейковых новостей и дискриминатора событий. Средство извлечения мультимодальных признаков взаимодействует с детектором фальшивых новостей для выполнения основной задачи распознавания фейковых новостей, в то время как средство извлечения мультимодальных признаков пытается обмануть средство распознавания событий, чтобы изучить инвариантные представления событий. Автоматическое извлечение признаков из текстового и визуального контента статей с использованием сверточных нейронных сетей (CNN).

содержание исследования

Обзор модели

Целью модели является изучение переносимых и различимых представлений признаков для обнаружения фальшивых новостей.Для достижения этого модель EANN объединяет три основных компонента: мультимодальный экстрактор признаков, детектор фальшивых новостей и дискриминатор событий, как показано на рисунке 1. :

image.png

  • Поскольку сообщения в социальных сетях часто содержат различные формы информации (например, текстовые сообщения и прикрепленные изображения), мультимодальные экстракторы признаков (включая экстракторы текстовых и визуальных признаков) используются для обработки различных типов входных данных.
  • После изучения текстовых и визуальных представлений скрытых признаков они объединяются вместе, чтобы сформировать окончательное представление многомодальных признаков, и как детектор фальшивых новостей, так и распознаватель событий строятся поверх средства извлечения многомодальных признаков.
  • Детектор фейковых новостей принимает в качестве входных данных представление изученной функции и предсказывает подлинность публикации. Распознаватель событий идентифицирует тег события каждого сообщения на основе этого скрытого представления.

Мультимодальный экстрактор признаков

Извлечение текстовых признаков

Входными данными экстрактора текстовых признаков является последовательный список слов в статье, а сверточные нейронные сети (CNN) используются в качестве основного модуля экстрактора текстовых признаков.

Как показано на рис. 1, модифицированная модель CNN под названием Text-CNN, архитектура которой показана на рис. 2, использует несколько фильтров с окнами разного размера для захвата признаков с разной степенью детализации для выявления поддельных новостей.

image.png

Конкретные шаги экстрактора текстовых признаков заключаются в представлении каждого слова в тексте в виде вектора встраивания слова. первое в предложенииiiсоответствует словуkkВектор встраивания размерного слова может быть выражен как:YiеRkY_i \in \mathbb{R}^k, так что один содержитnnСловосочетание может быть выражено следующим образом:

T1:n=T1T2...TnT_{1:n}=T_1\oplus T_2\oplus ...\oplus T_n

\oplusПредставляет операцию конкатенации векторов. Размер окнаhhФильтр свертки преобразует последовательные предложения в предложениеhhпоследовательность слов в качестве ввода и вывода функции дляiiпоследовательные слова, начинающиеся сhhВозьмем в качестве примера последовательность слов, операция фильтрации может быть выражена как:

ti=о(WcTi:i+h1)t_i=\sigma (W_c \cdot T_{i:i+h-1})

в,о()\sigma()функция активации ReLU,WcW_cПредставляет вес фильтра. Примените операцию ко всем словам предложения, чтобы получить вектор признаков этого предложения:

t=[t1,...,tnh+1]t=[t_1,...,t_{n-h+1}]

заttИспользуйте операцию max pooling, чтобы получить максимальное значение, тем самым извлекая наиболее важную информацию.

Для извлечения текстовых признаков разной степени детализации применяются окна разных размеров. Для определенного размера окна естьnhn_hразные фильтры. Предположим, естьccвозможные размеры окон, всегоc×nhc\times n_hфильтр. Текстовые функции, полученные после операции максимального объединения, могут быть выражены какRTcеRc×nhR_{T_c}\in \mathbb{R}^{c\times n_h}, и, наконец, полносвязный слой используется для получения окончательного представления текстовых функций (сRTеRpR_T \in \mathbb{R}^pпредставление), а текстовый элемент и представление визуального элемента имеют одинаковую размерность (обозначается какpp):

RT=о(WtfRTc)R_T=\sigma(W_{tf}\cdot R_{T_c})

WtfW_{tf}— весовая матрица полносвязного слоя.

Извлечение визуальных признаков

Образец входного изображения экстрактора визуальных признаков обозначается какVV, предварительно обработанный VGG19 используется для извлечения визуальных признаков.На последнем слое сети VGG19 добавляется полносвязный слой для настройки размера окончательного представления визуальных признаков доpp. определениеppРазмерные визуальные признаки выражаются какRVеRpR_V\in \mathbb{R}^p, операция последнего слоя в экстракторе визуальных признаков может быть выражена как:

RV=о(WvfRVvgg)R_V=\sigma(W_{vf}\cdot R_{V_{vgg}})

RVvggR_{V_{vgg}}представляет собой представление визуального признака, полученное из предварительно обученного VGG19,WvfW_{vf}— вес полносвязного слоя в экстракторе визуальных признаков.

текстовые функцииRTR_Tи визуальные особенностиRVR_Vбудут объединены в мультимодальное представление объекта, записанное как:

RF=RTRVеR2pR_F=R^T\oplus R_V \in \mathbb{R}^{2p}

Определите экстрактор мультимодальных признаков какGf(M:θf)G_f(M:\theta_f),MMпредставляет собой набор текстовых и визуальных образцов сообщений, является входом для экстрактора мультимодальных функций иθf\theta_fпредставляет параметр обучения.

детектор фейковых новостей

Детектор поддельных новостей развертывает полносвязный слой с использованием softmax для прогнозирования подлинности содержимого сообщения, чьи входные данные являются выходными данными мультимодального экстрактора признаков.RFR_F. Определите детектор поддельных новостей как:Gd(;θd)G_d(\cdot ; \theta_d),θd\theta_dУказывает все параметры. Включаем детекторы фейковых новостейiiРезультат предсказания поста определяется какmim_i, то вероятность того, что пост является фейковой новостью, равна:

Pθ(mi)=Gd(Gf(mi;θf);θd)P_{\theta}(m_i)=G_d(G_f(m_i;\theta_f);\theta_d)

использоватьYdY_dПредставляет набор образцовых меток и использует кросс-энтропию для расчета потерь при прогнозировании:

Ld(θf,θd)=E(m,y) (M,Yd)[ylog(Pθ(m))+(1y)log(1Pθ(m))]L_d(\theta_f,\theta_d)=-\mathbb{E}_{(m,y)~(M,Y_d)}[ylog(P_{\theta}(m))+(1-y)log(1-P_{\theta}(m))]

Найдя оптимальные параметрыθf^,θd^\hat{\theta_f},\hat{\theta_d}минимизировать функцию потерь.

Основная проблема в обнаружении фальшивых новостей связана с событиями, не охваченными обучающим набором данных, что требует от учащегося способности учитьсяПереносимые функции представления возникающих событий. Однако прямая минимизация потерь при обнаружении может помочь обнаружить только ложные новости о событиях, содержащихся в обучающем наборе данных, так что учащийся может получить только знания, относящиеся к конкретному событию (например, ключевые слова) или шаблоны, в то время как нам нужно позволить модели узнать больше, чем может захватитьПредставление общего свойства для общих свойств во всех событиях, это представление должно иметьинвариантность событий, и не содержит свойств, специфичных для события.

Для достижения вышеуказанной цели необходимо снять уникальность каждого события, а именно:Измеряйте непохожесть представлений объектов между разными событиями и удаляйте их, чтобы зафиксировать инвариантные к событиям представления объектов..

дискриминатор событий

Дискриминатор событий — это нейронная сеть, состоящая из двух полносвязных слоев и соответствующих функций активации, целью которых является корректная классификация постов какKKодно из этих событий, определяя дискриминатор событий какGe(RF;θe)G_e(R_F;\theta_e),θe\theta_eпредставляет его параметры. Определим потерю дискриминатора событий с кросс-энтропией:

Le(θf,θe)=E(m,y) (M,Ye)[k=1k1[k=y]log(Ge(Gf(m;θf));θe)]L_e(\theta_f,\theta_e)=-\mathbb{E}_{(m,y)~(M,Y_e)}[\sum^k_{k=1}1_{[k=y]}log(G_e(G_f(m;\theta_f));\theta_e)]

Цель дискриминатора событий — найти параметрыθe^\hat{\theta_e}минимизировать функцию потерь.

Le(θf,θe)L_e(\theta_f,\theta_e)Используется для оценки разницы в распределении разных событий. Большая потеря означает, что распределения, представленные разными событиями, похожи, а изученные признаки не зависят от событий. Для устранения уникальности каждого события необходимо искать параметрыθf^\hat{\theta_f}максимизироватьLe(θf,θe^)L_e(\theta_f,\hat{\theta_e}).

Это отражаетВраждебная сеть, с одной стороны, мультимодальный экстрактор признаков пытается обмануть дискриминатор событий, чтобы максимизировать потери различения, а с другой стороны, дискриминатор событий стремится обнаружить специфичную для события информацию, содержащуюся в представлении признаков, тем самым идентифицируя событие.

интеграция модели

На этапе обучения:

  • Мультимодальный экстрактор признаков:Gf(;θf)G_f(\cdot;\theta_f), который нужно совместить с детектором новостейGd(;θd)G_d(\cdot;\theta_d)чтобы свести к минимуму потери при обнаруженииLd(θf,θd)L_d(\theta_f,\theta_d)
  • Мультимодальный экстрактор признаков:Gf(;θf)G_f(\cdot;\theta_f), попробуйте обмануть дискриминатор событийGe(;θe^)G_e(\cdot;\hat{\theta_e})Различение потерь путем максимизации событийLe(θf,θe)L_e(\theta_f,\theta_e)обмануть дискриминатор событийGe(;θe^)G_e(\cdot;\hat{\theta_e})
  • дискриминатор событийGe(RF;θe)G_e(R_F;\theta_e)На основе мультимодального представления признаков каждое событие идентифицируется при минимальной потере идентификации события.

Подводя итог, определим окончательный проигрыш этого противостояния как:

Lfinal(θf,θd,θe)=Ld(θf,θd)λLe(θf,θe)L_{final}(\theta_f,\theta_d,\theta_e)=L_d(\theta_f,\theta_d)-\lambda L_e(\theta_f,\theta_e)

λ\lambdaКонтроль компромисса между целевой функцией обнаружения фейковых новостей и целевой функцией распознавания событий (статьяλ=1\lambda=1).

Для параметров оптимизации EANN пытается найти одну из конечных целевых функцийточка перевала, что возможно для оптимальной точки:

(θf^,θd^)=argminθf,θdLfinal(θf,θd,θe^) θe^=argmaxθeLfinal(θf^,θe)(\hat{\theta_f},\hat{\theta_d})=arg\min_{\theta_f,\theta_d}L_{final}(\theta_f,\theta_d,\hat{\theta_e}) \\ \ \\ \hat{\theta_e}=arg\max_{\theta_e}L_{final}(\hat{\theta_f},\theta_e)

Вышеупомянутая проблема решается стохастическим градиентным спуском.

Здесь используется слой обращения градиента (GRL), который играет роль тождественной функции на прямой стадии, а градиент умножается наλ-\lambda, а затем передать результат предыдущему слою на этапе обратного распространения. GRL можно удобно добавить между многомодальным экстрактором признаков и дискриминатором событий, как показано на обратном уровне, показанном на рисунке 1.

θfθfн(LdθfλLeθf)\theta_f \leftarrow \theta_f-\eta(\frac{\partial L_d}{\partial \theta_f}-\lambda\frac{\partial L_e}{\partial \theta_f})

Чтобы стабилизировать процесс обучения, уменьшайте скорость обучения следующим образом.нн:

н'=fracн(1+альфаp)бета,альфа=10,бета=0.75\eta'=frac{\eta}{(1+\alpha \cdot p)^\beta},\alpha=10,\beta=0.75

ppпредставляет собой линейное изменение, соответствующее прогрессу обучения от 0 до 1.

Подробные шаги событийно-состязательной нейронной сети (EANN) обобщены в алгоритме 1:

image.png