Обнаружение и борьба с поддельными новостями, созданными искусственным интеллектом, с помощью НЛП

машинное обучение

Автор|МОХД САНАД ЗАКИ РИЗВИ Компилировать|ВКонтакте Источник | Аналитика Видья

Обзор

  • Фейковые новости, генерируемые искусственным интеллектом (нейронные фейковые новости), могут стать огромной проблемой для нашего общества.
  • В этой статье обсуждаются различные подходы к обработке естественного языка для разработки надежной защиты от нейронных фейковых новостей, включая использование модели детектора GPT-2 и Гровера (AllenNLP).
  • Что каждый профессионал в области обработки данных должен знать о нейронных фейковых новостях и о том, как с ними бороться

вводить

Фальшивые новости являются серьезной проблемой в современном обществе. Не случайно это идет рука об руку с наступлением века, управляемого данными!

Фейковые новости настолько распространены, что ведущие мировые словари пытаются бороться с ними по-своему.

  • Dictionary.com назвал дезинформацию словом года 2018
  • Оксфордский словарь несколько лет назад выбрал «постправду» словом года

Так какую роль в этом играет машинное обучение? Я уверен, что вы слышали о методе машинного обучения, который может даже генерировать поддельные видео, имитирующие знаменитостей. Точно так же методы обработки естественного языка (NLP) также используются для создания поддельных статей, концепция, известная как «Neural Fake News».

Я работаю в области обработки естественного языка (НЛП) в течение последних нескольких лет, и хотя мне нравится скорость, с которой делаются прорывы, я также глубоко обеспокоен тем, как эти структуры НЛП используются для создания и распространения дезинформация.

Продвинутые предварительно обученные модели НЛП, такие как BERT, GPT-2, XLNet и т. д., легко загружаются кем угодно. Это увеличивает риск того, что они будут использованы для распространения пропаганды и социального хаоса.

В этом посте я всесторонне рассмотрю нейрофейковые новости — от определения того, что это такое, до понимания некоторых способов выявления этой дезинформации. Мы также узнаем больше о внутренней работе этих современных языковых моделей.

содержание

  1. Что такое нейронные фейковые новости?

  2. Как можно злоупотреблять большими языковыми моделями для создания нейронных поддельных новостей?

  3. Как обнаружить нейронные фейковые новости?

    1. проверка фактов

    2. Статистический анализ с использованием GLTR (HarvardNLP)

    3. Использование моделей для обнаружения нейронных фейковых новостей

      • Детектор ГПТ-2
      • Модель Гровера
  4. Ограничения существующих методов обнаружения и направления будущих исследований

Что такое нейронные фейковые новости?

Я уверен, что вы слышали термин «фейковые новости» в последнее время. Он широко используется практически во всех социальных сетях. В последние годы оно стало синонимом социальных и политических угроз. Но что такое фейковые новости?

Вот определение из Википедии:

«Фейковые новости (также известные как нежелательные новости, фейковые новости или ложные новости) — это любая форма новостей, преднамеренно распространяемая через традиционные средства массовой информации (печатные и вещательные) или социальные сети».

Фейковые новости — это любые новости, которые являются фактически ложными, искаженными, распространяемыми вирусами (или которые могут достичь целевой аудитории). Он может распространяться как через обычные средства массовой информации, так и через социальные сети, такие как Facebook, Twitter, WhatsApp и т. д.

Причина, по которой фальшивые новости, такие как «высадка на Луну — фальшивка», настолько неразличимы, заключается в том, что они тщательно имитируют «стиль» и «шаблон», которым обычно следуют настоящие новости. Вот почему нетренированный человеческий глаз вряд ли может сказать.

Кроме того, что довольно интересно, фейковые новости существуют очень-очень давно (фактически, на протяжении всей нашей истории).

нейронные фейковые новости

Нейронные фейковые новости — это любые фейковые новости, созданные с использованием моделей нейронных сетей. Или определить его более формально:

Нейронные фейковые новости — это целенаправленная пропаганда, которая очень точно имитирует стиль настоящих новостей, генерируемых нейронными сетями.

Вот пример нейронных поддельных новостей, сгенерированных моделью OpenAI GPT-2:

«системная подсказка» — это входные данные, которые человек вводит в модель, а «завершение модели» — это текст, сгенерированный моделью GPT-2.

Вы интуитивно догадались, что последняя часть была написана машиной? Обратите внимание, как невероятно модель способна развернуть подсказки в полноценный рассказ, который на первый взгляд кажется убедительным.

А что, если я скажу вам, что модель GPT-2 может скачать и запустить бесплатно любой желающий? Это именно то, что беспокоит исследовательское сообщество и почему я решил написать эту статью.

Как можно злоупотреблять большими языковыми моделями для создания нейронных поддельных новостей?

Моделирование языка — это метод НЛП, при котором модель учится предсказывать следующее или отсутствующее слово в предложении, понимая контекст из самого предложения. Возьмем, к примеру, поиск Google:

Вот пример языковой модели в действии. Позволяя модели предсказывать следующее слово или пропущенное слово в предложении, мы позволяем модели изучить сложность самого языка.

Эта модель способна понять, как работает грамматика, разные стили письма и т. д. Вот почему эта модель способна генерировать фрагмент текста, который правдоподобен неподготовленному человеку. Проблема возникает, когда одна и та же модель используется для целенаправленной пропаганды, чтобы ввести людей в заблуждение.

Ниже приведены некоторые очень мощные современные языковые модели, которые очень хорошо генерируют текст.

1. BERT от Google

BERT — это языковая модель, разработанная Google, которая бьет самые современные рекорды. Эта структура является причиной недавнего активного обучения и исследования больших языковых моделей различными исследовательскими лабораториями и компаниями.

BERT и RoBERTa от Facebook, XLM, XLNet, DistilBERT и т. д. очень хорошо зарекомендовали себя в генерации текста.

2. Модель OpenAI GPT-2

Ряд языковых моделей, таких как GPT, GPT-2 и GPT-Large от OpenAI, произвел фурор в средствах массовой информации благодаря своим возможностям генерации текста. Это некоторые языковые модели, о которых мы обязательно должны знать.

3.Grover

Grover — интересная новая языковая модель, предложенная AllenNLP, которая может не только генерировать текст, но и распознавать псевдотекст, созданный другими моделями.

Мы узнаем больше о Гроувере позже в этой статье.

Как обнаружить нейронные фейковые новости?

Как мы можем обнаружить или выяснить, является ли новость фальшивой? В настоящее время существует три основных метода борьбы с нейронными фейковыми новостями, каждый из которых дал хорошие результаты.

I. Проверка фактов

Каков самый простой способ проверить, являются ли новости, циркулирующие в Интернете, фальшивыми или реальными? Мы можем просто погуглить, обратиться к надежным новостным сайтам и проверить, есть ли на них одинаковые или похожие истории.

Хотя этот шаг может показаться здравым смыслом, на самом деле это один из самых эффективных способов обеспечить достоверность новости.

Но этот шаг касается только одного типа фейковых новостей: новостей из одного источника. Что, если мы хотим иметь дело с новостями, которые стали вирусными и активно освещаются окружающими нас средствами массовой информации?

Обычно это своего рода новости, генерируемые нейронной сетью, потому что новости очень похожи по «стилю» и «структуре» на настоящие новости.

Давайте узнаем некоторые способы работы с «машинно-генерируемым» текстом.

II Статистический анализ с использованием GLTR (HarvardNLP)

GLTR — это инструмент, разработанный экспертами HarvardNLP и MIT-IBM Watson Lab.

Основной метод, который GLTR использует для распознавания машинно-генерируемого текста, заключается в статистическом анализе и визуализации заданного текста.

Вот интерфейс GLTR:

Центральная идея обнаружения GLTR сгенерированного текста заключается в использовании той же (или похожей) модели, которая изначально использовалась для генерации этого текстового фрагмента.

Причина проста: слова, которые непосредственно генерирует языковая модель, исходят из распределения вероятностей, которое она изучает из обучающих данных..

Вот пример, обратите внимание, как языковая модель генерирует распределение вероятностей в качестве выходных данных с различными вероятностями для всех возможных слов:

Поскольку мы уже знаем методы выборки слов из заданного распределения вероятностей, такие как максимальная выборка, выборка k-max, поиск луча, выборка ядра и т. д., мы можем легко проверить, соответствуют ли слова в данном тексте определенному распределению.

Если это так, и в данном тексте есть несколько таких слов, то это в основном подтверждает, что он был сгенерирован машиной.

Давайте запустим GLTR на примере, чтобы понять концепцию!

Установить ГЛТР

Прежде чем использовать GLTR, нам нужно установить его в системе. Сначала клонируйте репозиторий GitHub проекта:

git clone https://github.com/HendrikStrobelt/detecting-fake-text.git

После клонирования репозитория перейдите в него и выполните установку pip:

cd detecting-fake-text && pip install -r requirements.txt

Затем загрузите предварительно обученную языковую модель. Это можно сделать, запустив сервер:

python server.py

В настоящее время GLTR поддерживает две модели: BERT и GPT-2. Вы можете выбрать один из двух; если вариант не указан, используется GPT-2:

python server.py --model BERT

Это начнет загрузку соответствующей предварительно обученной модели на ваш компьютер. Если у вас медленный интернет, подождите некоторое время.

Когда все будет готово, сервер запустится с порта 5001 и вы сможете сразу перейти кhttp://localhost:5001 для доступа к нему:

Как работает ГЛТР?

Предположим, у нас есть следующий текст. Мы хотим проверить, было ли оно сгенерировано такой языковой моделью, как GPT-2:

How much wood would a woodchuck chuck if a woodchuck could chuck wood?

GLTR примет этот ввод и проанализирует прогнозы GPT-2 для каждого входного местоположения.

Помните, что вывод языковой модели — это ранжирование всех слов, которые модель знает, поэтому наше ранжирование по GPT-2 сможет быстро увидеть каждое слово во входном тексте.

Если мы закодируем каждое слово цветом в зависимости от того, является ли оно зеленым в первых 10, желтым в первых 100 и красным в первых 1000, мы получим следующий результат:

Теперь мы можем визуально увидеть, насколько вероятно каждое слово в соответствии с GPT-2. Согласно модели, очень вероятны зеленый и желтый, а красный — неожиданное слово, означающее, что они, вероятно, были написаны людьми. Это именно то, что вы увидите в интерфейсе GLTR!

Если вам нужна дополнительная информация, вы можете навести курсор на слово «древесина». Вы увидите маленькое поле с 5 лучшими предсказанными словами для этой позиции и их вероятностью:

Я призываю вас попробовать разные тексты, созданные человеком или компьютером. Сам инструмент GLTR уже предоставляет несколько примеров:

Вы заметите, что когда вы переходите к реальному тексту, количество слов, выделенных красным и фиолетовым цветом, то есть маловероятных или редких предсказаний, увеличивается.

Кроме того, GLTR показывает три разные гистограммы с агрегированной информацией для всего текста (см. изображение ниже для справки):

  • Первый показывает количество слов, встречающихся в тексте для каждой категории (топ-10, топ-100 и топ-1000).

  • Второй пример иллюстрирует отношение вероятностей предыдущего предиктора к следующему предиктору.

  • Третья гистограмма показывает распределение предсказанной энтропии. Низкая неопределенность означает, что модель очень уверена в каждом прогнозе, а высокая неопределенность означает низкую достоверность.

Вот как эти гистограммы помогают:

  • Первые две гистограммы помогают понять, взяты ли слова во входном тексте из верхней части распределения (для машинно-генерируемого текста в основном выборка из верхней части распределения).

  • Последняя гистограмма показывает, известен ли контекст слова системе обнаружения (в основном, для машинно-генерируемого текста).

Сочетая эти множественные визуализации и знания о распределении вероятностей, модель GLTR может служить эффективным криминалистическим инструментом для понимания и распознавания машинно-генерируемого текста.

Вот освещение GLTR:

«Исследуя людей, мы обнаружили, что схема аннотации, предоставленная GLTR, увеличила уровень обнаружения поддельного текста у людей с 54% до 72% без какой-либо подготовки», — Германн и др.

Подробнее о GLTR можно прочитать в оригинальной исследовательской статье:АР Вест V.org/PDF/1906.04…

Использование моделей для обнаружения нейронных фейковых новостей

GLTR весьма впечатляет, потому что он использует простое знание распределения вероятностей и визуализацию для обнаружения нейронных поддельных новостей. Но что, если бы мы могли сделать лучше

Что, если бы мы могли обучить большую модель предсказывать, является ли фрагмент текста нейронной фейковой новостью?

Ну, это именно то, что мы собираемся узнать в этом разделе

Детектор ГПТ-2

Модель детектора GPT-2 представляет собой модель RoBERTa (вариант BERT), точно настроенную для предсказания того, был ли данный текст сгенерирован с использованием GPT-2 (в качестве простой задачи классификации).

RoBERTa — это большая языковая модель, разработанная в рамках исследования искусственного интеллекта Facebook и являющаяся усовершенствованием BERT от Google. Вот почему эти две структуры имеют много общего.

Здесь следует отметить одну вещь: хотя структура модели RoBERTa сильно отличается от структуры модели GPT-2, поскольку первая представляет собой замаскированную языковую модель (как и BERT), в отличие от GPT-2, первая не является генеративной по своей природе. GPT-2 по-прежнему продемонстрировал около 95% точности в определении генерируемых им нейронных поддельных новостей.

Еще одним преимуществом этой модели является то, что ее предсказания очень быстрые по сравнению с другими методами, которые мы обсуждали в этой статье.

Давай увидим это!

Установить модель детектора GPT-2

Этапы установки для этой модели детектора очень просты, как и для GLTR.

Сначала нам нужно клонировать репозиторий:

git clone https://github.com/openai/gpt-2-output-dataset.git

потом

cd gpt-2-output-dataset/ && pip install -r requirements.txt

Далее нам нужно загрузить предварительно обученную языковую модель. Сделайте это, выполнив следующую команду:

wget https://storage.googleapis.com/gpt-2/detector-models/v1/detector-base.pt

Этот шаг может занять некоторое время. После этого вы можете запустить зонд:

python -m detector.server detector-base.pt --port 8000

Когда все будет на месте, сервер запустится с порта 8000 и вы сможете перейти сразу кhttp://localhost:8000 для доступа к нему!

При этом вы можете опробовать модель детектора GPT-2!

Выявление нейронных фейковых новостей

Интерфейс модели детектора очень прост. Мы просто копируем и вставляем фрагмент текста, и он сообщает нам, является ли он «правдой» или «подделкой», в зависимости от того, был ли он сгенерирован машиной (модель GPT-2).

Вот текст, который я сгенерировал из GPT-2 с помощью библиотеки Transformers 2.0:

Как видите, несмотря на то, что текст выглядит убедительно и связно, модель напрямую классифицирует его как «фейк» с точностью 99,97%.

Это действительно интересный инструмент, и я рекомендую вам попробовать разные примеры, как сгенерированный, так и несгенерированный текст, и посмотреть, как он работает!

В моем случае я вообще заметил, что модель очень хорошо распознает только текст, сгенерированный моделью GPT-2. Это сильно отличается от Grover, еще одной структуры, которую мы изучим в следующем разделе. Гровер может распознавать текст, сгенерированный различными языковыми моделями.

Подробнее об архитектуре и методах обучения RoBERTa можно прочитать в блоге на Facebook. Если вам интересно, как реализовать модель детектора, вы можете проверить код на GitHub.

Grover

Grover — мой любимый инструмент из всех вариантов, рассмотренных в этой статье. В отличие от моделей детекторов GLTR и GPT-2, которые ограничены конкретными моделями, он способен распознавать фрагмент текста как псевдотекст, созданный большим количеством многоязыковых моделей.

Авторы утверждают, что лучший способ определить фрагмент текста как нейрофейковые новости — это использовать модель, которая сама по себе является генератором, способным создавать такой текст. По их собственным словам:

«Генераторы лучше всего знакомы со своими привычками, причудами и особенностями, а также с моделями, подобными ИИ, особенно с теми, кто обучен на аналогичных данных», — Зеллерс и др.

Звучит нелогично на первый взгляд, не так ли? Чтобы построить модель, которая могла бы обнаруживать нейронные фальшивые новости, они в первую очередь разработали модель, которая очень хорошо справлялась с созданием подобных фальшивых новостей!

Звучит безумно, но за этим стоит научная логика.

Как работает Гроув?

определение проблемы

Гровер определяет задачу обнаружения нейронных фейковых новостей как состязательную игру с двумя моделями:

  • В настройке есть две модели для генерации и обнаружения текста

  • Цель состязательных моделей — генерировать фальшивые новости, которые могут быть вирусными или достаточно убедительными как для людей, так и для проверяющих моделей.

  • Валидатор классифицирует, является ли данный текст истинным или ложным:

  • Обучающие данные для валидатора включают неограниченное количество реальных новостей, но только некоторые фейковые новости от конкретного противника.
  • Это делается для того, чтобы воспроизвести сценарии реального мира, когда злоумышленники предоставляют гораздо меньше фальшивых новостей, чем настоящие новости.

Двойная цель этих двух моделей означает, что между злоумышленниками и защитниками существует «конкуренция» за то, чтобы одновременно генерировать фейковые новости и обнаруживать фальшивые новости. По мере совершенствования моделей проверки совершенствуются и состязательные модели.

Условная генерация нейронных фейковых новостей

Одной из наиболее очевидных характеристик нейронных фейковых новостей является то, что это часто «целевой» контент, такой как кликбейт или пропаганда, и большинство языковых моделей (таких как BERT и т. д.) не позволяют нам создавать такой контролируемый текст.

Гровер поддерживает «контролируемое» генерирование текста. Это просто означает, что мы можем предоставить дополнительные параметры на этапе генерации в дополнение к входному тексту в модель. Эти параметры будут направлять модель для создания определенного текста.

Но что это за параметры? Рассмотрим новостную статью. Какие структурные параметры помогают определить новостную статью? Вот некоторые параметры, которые авторы Grover считают необходимыми для создания статей:

  • Домен: где опубликована статья, это косвенно влияет на стиль

  • Дата: Дата публикации

  • Автор: имя автора

  • Название: Название статьи, которое влияет на генерацию статьи.

  • Тело: Тело статьи.

Объединив все эти параметры, мы можем смоделировать статью совместным распределением вероятностей:

Сейчас я не буду вдаваться в базовую математику того, как это сделать, так как это выходит за рамки этой статьи. Однако, чтобы дать вам представление о том, как выглядит весь процесс сборки, вот схема:

Вот процесс:

  • В строке а тело генерируется частичным контекстом (поле автора отсутствует)

  • В строке b модель генерирует автора

  • В строке c модель повторно генерирует предоставленный заголовок, делая его более реалистичным.

Схема и набор данных

Grover использует ту же архитектуру, что и GPT2:

  • Есть три модели. Самая маленькая модель Grover-Base имеет 12 слоев и 124 миллиона параметров, что сопоставимо с GPT и BERT-Base.

  • Следующая модель Grover Large имеет 24 слоя и 355 миллионов параметров, сопоставимых с BERT Large.

  • Самая большая модель Grover Mega имеет 48 слоев и 1,5 миллиарда параметров, что сопоставимо с GPT2.

Набор данных RealNews, используемый для обучения Гровера, был создан самими авторами Гровера. Набор данных и код, который его создал, являются открытым исходным кодом, поэтому вы можете загрузить и использовать его как есть или создать свой собственный набор данных в соответствии со спецификациями Гровера.

Установить Гровера

Вы можете установить Grover, следуя инструкциям по установке, и запустить его инструменты генератора и детектора на своем компьютере. Имейте в виду, что размер этой модели огромен (сжато 46,2 ГБ!), поэтому ее установка в вашей системе может оказаться сложной задачей.

Вот почему мы используем инструменты онлайн-детектора и генератора.

Генерация и обнаружение с Гровером

Вы можете получить доступ к инструменту по ссылке ниже:

https://grover.allenai.org/

Вы можете поэкспериментировать с опцией «Создать», чтобы увидеть, насколько хорош Гровер в создании нейронных поддельных новостей. Поскольку мы заинтересованы в изучении возможностей обнаружения Гровера, давайте перейдем на вкладку «Обнаружения» (или перейдите по ссылке ниже):

https://grover.allenai.org/detect
Пример 1:

Текст, который мы хотим протестировать, совпадает с текстом, сгенерированным GPT-2, который мы видели ранее:

Когда вы нажмете кнопку «Обнаружить поддельные новости», вы заметите, что Гровер легко распознает их как сгенерированные машиной:

Пример 2:

Следующая статья, которую мы собираемся протестировать, взята из New York Times:

Вы обнаружите, что Гровер признает, что это было написано одним человеком:

Пример 3:

Это простые примеры. Что, если я дам ему технический текст? Как описано в техническом блоге

С текстом, который я предоставил сам, Grover потерпел неудачу, потому что он не был обучен таким техническим статьям:

Но модель детектора GPT-2 сработала, потому что она была обучена на самых разных веб-страницах (8 миллионов!).

Это просто для того, чтобы показать, что ни один инструмент не совершенен.

Пример 4:

Она - последний эксперимент, который мы проведем. Мы будем тестировать сгенерированные машиной новости, которые не являются «фейками», а являются просто примером автоматически сгенерированных новостей. Эта статья взята из The Washington Post:

Интересно, что модель детектора GPT-2 говорит, что это вовсе не новости, созданные машиной:

Но при этом Гровер смог распознать, что это был машинописный текст с чуть меньшей вероятностью (но все же разобрался!):

Теперь, думаете ли вы, что это «фейковые» новости или нет, правда в том, что они сгенерированы машиной. Как классифицировать этот тип текста, будет зависеть от ваших целей и того, чего пытается достичь ваш проект.

Короче говоря, лучший способ обнаружить нейронные фейковые новости — это объединить все эти инструменты и сделать сравнительные выводы.

Ограничения существующей технологии обнаружения фейковых новостей и направления будущих исследований

Очевидно, что текущая технология обнаружения несовершенна, и есть еще место для развития. Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) недавно провела исследование существующих нейронных методов обнаружения фальшивых новостей, и некоторые из их результатов оказались поразительными.

Ограничения существующих нейронных методов обнаружения фальшивых новостей

Главный вывод исследования заключается в том, что существующие методы нейродетектирования фейковых новостей, такие как GLTR, Grover и др., неполны.

Это связано с тем, что недостаточно определить, является ли фрагмент текста «сгенерированным машиной», может быть законная новость, сгенерированная машиной с помощью таких инструментов, как автозаполнение, суммирование текста и т. д.

Например, известное приложение для письма Grammarly использует некоторую форму GPT-2 для исправления грамматических ошибок в тексте.

Другим примером такого случая является Case Study 4 в предыдущем разделе этой статьи, где The Washington Post использовала программу для создания спортивных новостей.

И наоборот, также могут быть искусственные тексты, слегка искаженные/модифицированные злоумышленниками, которые согласно существующим методам классифицируются как не-нейронные фальшивые новости.

Вот пример, который обобщает описанную выше дилемму модели детектора:

Как видно из приведенного выше рисунка, поскольку пространства признаков сгенерированных нейронных поддельных новостей и реальных новостей очень далеки друг от друга, модели легко классифицировать, какие из них являются поддельными.

Кроме того, когда модели приходится классифицировать настоящие сгенерированные новости и нейронные поддельные новости (как мы видели ранее в тематическом исследовании 4), модель не может их обнаружить, потому что области признаков этих двух очень близки.

Такое же поведение наблюдается, когда модель должна различать сгенерированные искусственные новости и новости, которые были слегка изменены, чтобы стать фальшивыми.

Я не хочу вдаваться в подробности, но авторы провели несколько экспериментов, чтобы прийти к таким выводам, и вы можете прочитать их статью, чтобы узнать больше:АР Вест V.org/PDF/1908.09…

Эти результаты приводят авторов к выводу, что для определения/обнаружения нейронных фальшивых новостей мы должны учитывать подлинность, а не источник (источник, будь то написанный машиной или написанный человеком).

Я думаю, что это вывод, открывающий нам глаза.

Каковы будущие направления исследований

В качестве шага к решению проблемы нейронных фейковых новостей Кембриджский университет и Amazon в прошлом году выпустили FEVER, крупнейший в мире набор данных для проверки фактов, который можно использовать для обучения нейронных сетей обнаружению фейковых новостей.

Хотя когда та же исследовательская группа в Массачусетском технологическом институте (Schuster et al.) проанализировала FEVER, они обнаружили в наборе данных FEVER определенные погрешности, которые облегчают нейронным сетям обнаружение поддельного текста по шаблонам в тексте. Когда они исправили некоторые погрешности в наборе данных, они обнаружили, что точность модели резко упала, как и ожидалось.

Затем они выложили симметрично скорректированный набор данных в открытый доступ на GitHub в качестве эталона для других исследователей для проверки своих моделей, что, я думаю, является хорошим шагом для всего исследовательского сообщества, которое активно пытается решить проблему нейронных фальшивых новостей.

Если вам интересно узнать больше об их методах и экспериментах, прочтите их оригинальную статью:АР Вест V.org/PDF/1908.05…

Поэтому создание крупномасштабных непредвзятых наборов данных, я думаю, является хорошим первым шагом в направлении будущих исследований того, как бороться с нейронными поддельными новостями, потому что по мере роста наборов данных будет расти интерес исследователей и организаций к созданию моделей для улучшения существующих. контрольные показатели Увеличение. Это соответствует тому, что мы делали в НЛП в течениеGLUE, SQUAD) и резюме (ImageNet) как видно в .

Помимо этого, когда я рассматриваю большинство исследований, с которыми мы столкнулись, вот несколько направлений, которые мы могли бы исследовать дальше:

  1. Я лично считаю, что такие инструменты, как Grover и GLTR, являются хорошей отправной точкой для обнаружения нейронных фейковых новостей, и они показывают пример того, как мы можем творчески использовать существующие знания для создания систем, способных обнаруживать фальшивые новости. Поэтому нам необходимы дальнейшие исследования в этом направлении для улучшения существующих инструментов и их более эффективной проверки не только на наборах данных, но и в реальных условиях.

  2. Выпуск набора данных FEVER — это долгожданный шаг, который поможет нам изучить и создать больше таких наборов данных с фейковыми новостями в различных условиях, поскольку это будет напрямую стимулировать дальнейшие исследования.

  3. Обнаружение точности текста с помощью модели — сложная задача, но нам необходимо структурировать ее таким образом, чтобы упростить создание наборов данных, помогающих обучать модели, которые могут аутентифицировать текст на основе его подлинности. Поэтому дальнейшие исследования в этой области приветствуются.

  4. Как справедливо заметили авторы Grover и GLTR, нам необходимо продолжать открытость исследовательского сообщества, выпуская в будущем большие языковые модели (такие как GPT-2, Grover и т. д.), потому что только тогда, когда мы знаем, насколько силен противник есть, мы можем построить сильную оборону.

Оригинальная ссылка:Woohoo.Со слов аналитиков vi.com/blog/2019/1…

Добро пожаловать на сайт блога Panchuang AI:panchuang.net/

sklearn машинное обучение китайские официальные документы:sklearn123.com/

Добро пожаловать на станцию ​​сводки ресурсов блога Panchuang:docs.panchuang.net/