Применение классификации текстов глубокого обучения в текстовой модели жалоб Alipay

искусственный интеллект глубокое обучение алгоритм

С быстрым развитием глубокого обучения и хорошими результатами в области изображения и речи технология обработки естественного языка, основанная на глубоком обучении, также привлекает все больше и больше внимания. Как компьютеры понимают человеческий язык?

Применение традиционного машинного обучения часто использует вышеупомянутые функции суммированного текста вручную, но часто сталкивается с некоторыми проблемами. Например, семантика слов «кот» и «ми» очень близка (т. е. синонимы), но компьютер не может толком понять семантику слов, а просто трактует их как два разных слова. Другой пример: «щенок» и «котенок» — два очень родственных слова, и их нельзя правильно понять и описать.

В этой статье в основном представлена ​​задача классификации текста в глубоком обучении и некоторые модели глубокого обучения, применяемые к классификации текста. Классификация текста — это один из самых классических сценариев обработки естественного языка, когда пытаются определить метку или набор меток для заданного текста (предложения, документа и т. д.). Благодаря этим методам компьютеры могут лучше понимать человеческий язык.

В ответ на жалобу Alipay на мошенничество команда искусственного интеллекта Ant Financial разработала несколько моделей глубокого обучения текста. Включая двусторонний GRU, Capsule Network, модель на основе внимания и т. д., они добились хороших результатов в сценариях мошенничества с жалобами Alipay. Давайте посмотрим вместе!

Введение

Для бизнеса по управлению рисками жалобы пользователей являются важной формой понимания режима работы черного производства и отслеживания изменений в управлении рисками. Центр принятия решений о рисках ежедневно получает большое количество текстовой информации о жалобах пользователей, и каждый текст жалобы обычно соответствует определенной форме риска. Текущая модель классификации лишь частично решает проблему использования текстовой информации. В настоящее время моделями глубокого обучения, которые в основном используются в сценариях мошенничества с жалобами Alipay, являются TextCNN и двунаправленный GRU.

Связанный анализ работы

Основная цель этой статьи — представить задачу классификации текста в глубоком обучении и некоторые модели глубокого обучения, применяемые к классификации текста. Классификация текста — это один из самых классических сценариев обработки естественного языка, когда пытаются определить метку или набор меток для заданного текста (предложения, документа и т. д.).

Классификация текста содержит большое количество технических реализаций.В зависимости от того, используется ли технология глубокого обучения в качестве стандарта, эти технические реализации можно разделить на две категории: классификация текста на основе традиционного машинного обучения и классификация текста на основе глубокого обучения.

Применение текстовой классификации очень обширно, среди которых наиболее распространенными приложениями являются классификация спама, анализ настроений, классификация тем новостей, классификация вопросов в автоматических системах ответов на вопросы и некоторые существующие соревнования по данным. Существующие соревнования по данным включают в себя конкурс машинного обучения Zhihu Kanshan Cup, конкурс BDCI2017 «Пусть ИИ будет судьей» и конкурс классификации токсичных комментариев Kaggle.

Существует три основных типа классификации в текстовой классификации, включая проблемы бинарной классификации, проблемы множественной классификации и проблемы множественной метки. Например, оценка того, является ли электронное письмо спамом в классификации спама, относится к проблеме бинарной классификации. При анализе тональности оценка того, является ли тональность текста положительной или отрицательной, или оценка того, принадлежит ли тональность текста одной из категорий очень негативной, негативной, нейтральной, позитивной и очень позитивной, может быть либо проблемой бинарной классификации, либо многозадачной задачей. -проблема классификации. В конкурсе BDCI 2017 «Пусть AI будет судьей» классификация штрафов и статей на основе текста описания фактов дела относится к проблеме мультиклассификации и проблеме мультимаркировки соответственно.

Индикаторы оценки текстовой классификации будут иметь разные индикаторы оценки в соответствии с разными типами классификации. Такие индикаторы, как точность, точность, полнота и показатель F1, часто используются в задачах бинарной классификации; индикаторы, такие как микроусреднение-F1 и макроусреднение-F1, часто используются в задачах множественной классификации и задачах классификации с несколькими метками. коэффициент сходства Жаккара и др.

В текстовой классификации, основанной на традиционном машинном обучении, TF-IDF и количество слов обычно используются для извлечения текстовых признаков из различных n-грамм слов, а затем извлеченные текстовые признаки вводятся в классификаторы, такие как логистическая регрессия и наивный байесовский анализ, для обучения. Однако, когда количество статистических выборок относительно велико, возникают такие проблемы, как разреженность данных и взрыв размерности. В настоящее время требуется некоторая обработка уменьшения размерности признаков, такая как фильтрация стоп-слов, низкочастотная фильтрация n-грамм, уменьшение размерности LDA и т. д.

С быстрым развитием глубокого обучения и хорошими результатами в области изображения и речи технология обработки естественного языка, основанная на глубоком обучении, также привлекает все больше и больше внимания. Применение традиционного машинного обучения заключается в использовании вышеупомянутых функций текста, суммированных вручную, но оно часто сталкивается с некоторыми проблемами. Например, семантика слов «кот» и «ми» очень близка (т. е. синонимы), но компьютер не может толком понять семантику слов, а просто трактует их как два разных слова. Другой пример: «щенок» и «котенок» — два очень родственных слова, и их нельзя правильно понять и описать.

Чтобы решить вышеуказанные проблемы и позволить компьютерам в определенной степени понять семантику слов, применяется технология векторов слов. Миколов и др. 2013 [1] предложили модель word2vec, которая может отображать семантику слов в фиксированное векторное пространство через структурную информацию контекста слова. Если вам нужно определить семантическое сходство (или корреляцию) двух слов, вам нужно только вычислить косинусное или евклидово расстояние угла между двумя векторами слов. Например, значение сходства между «щенком» и «котенком» будет очень высоким. С алгоритмом вектора слов компьютер имеет определенную способность понимать семантику слов.

На этой основе мы надеемся лучше описать смысловую информацию всего предложения. Yoon Kim, 2014 [2] впервые предложил применить модель CNN к задаче классификации текста. Здесь вектор слов используется в качестве входных данных первого слоя сети, а основная цель CNN заключается в том, что он может фиксировать локальные корреляции.В задачах классификации текста CNN можно использовать для извлечения ключевой информации, аналогичной слову n- грамм в предложениях.

Архитектура модели TextCNN показана на рисунке ниже.Каждое слово в предложении представлено K-мерным вектором, поэтому предложение может быть представлено как матрица N * K в качестве входных данных CNN. Используйте другое окно фильтра, чтобы выполнить операцию свертки для получения карты объектов, а затем используйте операцию объединения пулов Max-over-time для карты объектов, то есть извлеките наибольшее значение из вектора карты объектов, чтобы сформировать одномерный вектор. После вывода полносвязного слоя для классификации используется слой Softmax, а для предотвращения переобучения добавляется слой Dropout.

Рекуррентная нейронная сеть (RNN) чаще используется при обработке естественного языка, что позволяет лучше выражать контекстную информацию. Liu et al., 2016 [3] представили дизайн RNN для задач классификации. Структура сети RNN, используемая для классификации текста, показана на рисунке ниже.В сети результат последнего блока используется как текстовый признак, а для классификации подключается полносвязный слой Softmax.

В дополнение к этому также используется конкатенация или среднее значение выходных векторов двух направлений двунаправленной сети RNN [4] (двунаправленные RNN, BiRNN) в качестве текстовых признаков.

Общие рекуррентные нейронные сети часто имеют много недостатков. В процессе обучения сети такие проблемы, как исчезновение градиента или взрыв градиента, возникают после многих этапов распространения. Когда RNN получает ошибку при обратном распространении, представьте себе многократное умножение собственных весов параметров, и величина этого произведения рассеивается или взрывается в зависимости от величины. В случае взрывных градиентов часто используется метод усеченного градиента. Однако усечение градиента не может эффективно решить проблему рассеивания градиента.Один из простых способов — использовать параметры регуляризации или ограничения.Конечно, есть лучшее решение — использовать LSTM (долгосрочный краткосрочный Gated RNN (Gated RNN), например Memory) или GRU (Gated recurent unit).

Рассеивание градиента является большой проблемой в собственных RNN, то есть узлы в более позднее время менее чувствительны к узлам в предыдущий момент времени, то есть забывают что-то. Hochreiter et al., 1997 [5] предложили LSTM, который изначально был разработан для решения проблемы рассеяния градиента. В стандартной RNN этот повторяющийся модуль имеет очень простую структуру, например слой tanh. LSTM имеют одинаковую структуру, но повторяющиеся модули имеют другую структуру. Вместо одного слоя нейронной сети здесь четыре, взаимодействующих очень специфическим образом. Как показано на рисунке ниже, блок LSTM имеет четыре входа.

(1) Вход: вход модуля;

(2) Входные ворота: управляющий вход;

(3) Forget Gate: контролирует, обновлять ли ячейку памяти;

(4) Output Gate: управление выходом.

В рекуррентной сети, соединенной несколькими LSTM, ворота одного LSTM управляются следующим образом:

Cho et al., 2014 [6] предложили сетевую структуру GRU.GRU, как вариант LSTM, объединяет вентиль забывания и вентиль ввода в один вентиль обновления. Также смешанное состояние ячейки и скрытое состояние, а также некоторые другие изменения. Окончательная модель проще стандартной модели LSTM и на данный момент является очень популярным вариантом.

В частности, в задаче классификации текста BiRNN (фактически использующие двунаправленные GRU) можно понимать в некотором смысле как сбор информации переменной длины и двунаправленной «n-граммы слов».

Проблемы и вызовы

Хотя алгоритм word2vec может изучать полезные векторы слов, этот алгоритм описывает только информацию о контекстной структуре слов и не может эффективно использовать информацию о внутренней структуре китайских слов, а китайский язык — это язык с сильными значениями. Особенно в данных в области большой безопасности есть много вариантов слов. Например, для слов «Мисс» и «Маленькая девочка» часто встречаются преступники, которые преднамеренно используют «деформацию» для написания последнего в обход системы перехвата; это сознательное избегание «изменения звука». Поэтому мы надеемся попробовать новый алгоритм, который сможет хорошо описывать «форму» и «звучание» характеристик китайских слов, генерировать более качественные векторы слов, а затем предоставлять большее количество информации для последующей глубокой нейронной сети.

TextCNN может хорошо работать во многих задачах.Сверточный детектор признаков CNN извлекает шаблоны из локальных последовательных окон и использует максимальное объединение для выбора наиболее очевидных признаков. Затем CNN иерархически извлекает шаблоны признаков на разных уровнях. Однако, когда CNN моделирует пространственную информацию, детектор признаков необходимо дублировать, что снижает эффективность модели. Однако в реальном китайском корпусе структура текста богата, информация о положении слов, семантическая информация, грамматическая структура и т. Д. Для нечувствительного к пространству метода CNN неизбежно возникнут проблемы.

BiGRU оказывают очевидное влияние на классификацию текстов, но они имеют очевидные недостатки в интерпретируемости и общей важности уделения внимания текстам, особенно при анализе плохих случаев.

Как разрешить глубокое понимание TextCNN информации о позиции, семантической информации, грамматической структуре и другой информации о тексте в тексте, а также позволить текстовой модели BiGRU обращать внимание на общую важность текста, будет содержанием, которое будет изучено ниже. .

CW2VEC

Цао и др. 2018 [7] предложили алгоритм cw2vec в статье AAAI 2018. (Дополнительную литературу см. в документе AAAI 2018 | Ant Financial открывает новейший алгоритм вектора китайского слова на основе штрихов.) Алгоритм извлекает семантические единицы китайских иероглифов путем построения «n-арных штрихов», таких как «лес». и "дерево".У этих двух слов много общего "4-юаньские штрихи" - "дерево", поэтому эти два слова имеют высокую степень корреляции. По сравнению с разборкой китайских иероглифов и радикальной детализацией штрих n-yuan представляет собой неручную сводку, а семантическая структура автоматически рассчитывается алгоритмом. В общедоступном китайском тестовом наборе cw2vec относится к word2vec, GloVe, Такие алгоритмы, как CWE, постоянно совершенствуются.

Алгоритм cw2vec использует как внутреннюю, так и контекстуальную структурную информацию китайских слов для построения функции потерь, тем самым создавая векторы китайских слов более высокого качества.

Помимо «формы», «звук» может быть описан «n-граммным пиньинь». Здесь символы пиньинь от «а» до «z», и таким же образом получается пиньинь слова, а затем через скользящее окно далее получается «n-граммный пиньинь».

Чтобы одновременно получить информацию об особенностях «формы» и «звучания», мы приняли простую и эффективную экспериментальную схему, которая заключается в изучении векторов слов на основе «n-граммовых штрихов» и «n-граммного пиньинь». режимы соответственно, а затем выполните сшивание. По сравнению со средним вектором слов (который можно рассматривать как линейное взвешивание) этот метод сплайсинга поддерживает более высокую нелинейную способность слияния информации для последующей глубокой нейронной сети.

В настоящее время алгоритм cw2vec добился хороших результатов в таких сценариях, как безопасность контента и страхование.Здесь мы также рассмотрим его роль в сценарии мошенничества с жалобами Alipay.

Capsule Network

Hinton et al., 2017 [8] В статье, опубликованной в прошлом году, Хинтон представил, что Capsule — это группа нейронов, чьи входные и выходные векторы представляют параметры реализации определенного типа объекта (то есть вероятность возникновения определенного объект, концептуальная сущность и др. некоторые свойства). Мы используем длину входного и выходного векторов для представления вероятности существования объекта, а направление вектора — для представления параметров реализации (т. е. некоторых графических свойств объекта). Капсулы на том же уровне используют матрицы преобразования для прогнозирования параметров реализации капсул более высокого уровня. Когда несколько прогнозов согласуются (в этом документе для обеспечения согласованности прогнозов используется динамическая маршрутизация), активируются капсулы более высокого уровня.

На данный момент имеется несколько статей о применении капсульных сетей для обработки естественного языка, среди которых Zhao et al., 2018 [9] предложили применять капсульные сети к задачам классификации текста. Для традиционных задач классификации капсульная сеть достигла лучшей производительности, и ее производительность превышает производительность TextCNN.Схема структуры модели показана ниже.

Сетевая структура, которую мы используем в настоящее время, представляет собой BiGRU (двунаправленные GRU) со скрытым размером 128, подключенным к капсульному сетевому уровню, количество капсул установлено на 10, а количество маршрутов установлено на 3.

Механизм внимания

Говоря о модели, основанной на механизме внимания, мы должны в первую очередь упомянуть структуру кодировщика-декодера, которую можно понимать как общую модель обработки, которая генерирует другое предложение из одного предложения. Его архитектура показана на следующем рисунке:

В примере на рисунке видно, что четыре традиционных символа «машинного обучения» кодируются Энкодером, и получается промежуточная семантика, то есть зеленый квадрат, отмеченный на рисунке красной рамкой. Затем используйте зеленый квадрат в красном поле в качестве ввода декодера. Я должен объяснить здесь.Кодер-декодер — это общая вычислительная структура.Кодировщик и декодер могут быть комбинацией различных моделей, таких как CNN, RNN и т. д. На приведенном выше рисунке показано, что и кодировщик, и декодер представляют собой комбинацию RNN.

Если вы внимательно посмотрите на структуру перевода на рисунке выше, то увидите, что при генерации целевого слова, независимо от того, какое слово использует зеленый квадрат с одной и той же красной рамкой, то есть одна и та же промежуточная семантика. Это модель отвлечения, которая демонстрирует невнимательность. Как насчет модели внимания?

Bahdanau et al., 2014 [10] предложили применить механизм Attention к машинному переводу. Модель внимания будет обращать внимание на входное слово при выводе целевого слова.Например, при выводе «машина» модель внимания должна обращать внимание на два слова «машина», то есть важность «машины» должна быть Некоторым и значение слова "обучение" должно быть меньше. Архитектура модели, основанная на механизме Attention, показана на следующем рисунке.

Yang et al., 2016 [11] предложил использовать вектор слова для представления вектора предложения, а затем вектор предложения для представления вектора документа, и представил иерархическую модель внимания (Hierarchical Attention Networks, HAN) внимания на слове. уровень и уровень предложения соответственно. Структура модели HAN показана на следующем рисунке.

Сетевая структура, которую мы в настоящее время используем, представляет собой BiGRU (двунаправленные GRU) со скрытым размером 128, подключенным к слоям Attention на уровне слов.

Результаты экспериментов

В ходе эксперимента часть данных о мошенничестве с жалобами Alipay считывалась как обучающая выборка, а другой период данных использовался как тестовая выборка. Метки данных подразделяются на три категории: запрещенные, не относящиеся к делу и мошеннические. Среди них результат классификации мошенничества является результатом нашей главной заботы. После того, как набор данных подвергся некоторым операциям предварительной обработки, таким как дедупликация данных, удаление пунктуации в тексте, заполнение пустых значений и т. д., обработанные данные вводятся в нашу модель нейронной сети, и получаются следующие результаты.

В эксперименте мы в основном сравнивали модели Capsule Network и TextCNN, а также модель BiGRU и модель Attention с разными векторами слов в качестве начального слоя встраивания сети при разных показателях оценки. Среди них, чтобы проверить влияние многомерных векторов слов после склейки двух векторов слов на структуру сети, добавлен набор экспериментальных сравнений различных сетевых структур после склейки векторов слов.

Изображение выше представляет собой набор экспериментальных примеров использования word2vec в качестве вектора слов и нескольких сетевых моделей в тексте жалобы Alipay. Первое изображение — это кривая ROC для этой группы моделей, а второе изображение — это кривая Precision/Recall для этой группы моделей.

Изображение выше представляет собой набор экспериментальных примеров нескольких сетевых моделей в тексте жалобы Alipay с использованием cw2vec в качестве вектора слов. Первое изображение — это кривая ROC для этой группы моделей, а второе изображение — это кривая Precision/Recall для этой группы моделей.

Приведенное выше изображение представляет собой набор экспериментальных примеров использования склеенного многомерного вектора в качестве вектора слова и нескольких сетевых моделей в тексте жалобы Alipay. Первое изображение — это кривая ROC для этой группы моделей, а второе изображение — это кривая Precision/Recall для этой группы моделей.

Примечания: 2vecs относится к объединению 300-мерного вектора слов cw2vec и 300-мерного вектора слов word2vec вместе для формирования 600-мерного вектора слов. Метод расчета AUC рассчитывается на основе общих результатов прогнозирования и истинных меток трех категорий. Точность по трем категориям (Accuracy) рассчитывается на основе максимального значения результатов по трем категориям для определения категории, а Precision/Recall рассчитывается только на основе результатов по категории мошенничества по трем категориям.

В эксперименте алгоритм вектора слов использовал word2vec и cw2vec соответственно, где word2vec содержит 150-мерные векторы слов cbow и skip-gram, а cw2vec содержит 150-мерные векторы слов на основе штрихов и пиньинь. Склеенный многомерный вектор слов (2vecs) представляет собой 600-мерный вектор слов, содержащий как cw2vec, так и word2vec.

Приведенные выше эксперименты показывают, что, независимо от использования word2vec, cw2vec и объединенных многомерных векторов слов в качестве векторов слов, модель, которую мы обучили с помощью сетевой структуры Capsule Network, лучше, чем исходный TextCNN, в значении Precision/Recall и значении AUC. Сравнивая точность двух категорий по трем категориям, Capsule Network немного ниже, чем TextCNN, в точности использования вектора объединенных слов. Таким образом, эксперименты показывают, что общая производительность Capsule Network лучше, чем у оригинального TextCNN.

Сравнивая модель BiGRU и модель Attention, мы можем обнаружить, что модель BiGRU имеет немного более высокий балл, чем модель Attention, когда значение отзыва ниже в Precision. Однако при воспроизведении с более высокой точностью оценка модели «Внимание» значительно выше, чем у модели BiGRU. Как показано в таблице, значение полноты Attention+word2vec при точности 80% немного ниже, чем у BiGRU+word2vec. Но при точности 85% и 90% значение полноты Attention+word2vec значительно выше, чем у BiGRU+word2vec. При сравнении двух значений AUC и Accuracy модель Attention показала более высокие результаты при использовании векторов слов word2vec и конкатенированных многомерных векторов слов.

При сравнении векторов слов видно, что только использование cw2vec в качестве модели сети векторов слов лучше, чем word2vec и объединенные векторы слов в целом.

Обсуждение и перспективы

Структура сети Capsule может глубоко понимать информацию о положении, семантическую информацию, грамматическую структуру и другую информацию текста в текстовой классификации, а механизм Attention может заставить сеть RNN уделять больше внимания важности сортировки текста.

Мы надеемся, что структура сети Capsule и механизм Attention могут быть использованы в других сценариях.Вы можете связаться с нами в любое время, чтобы обсудить!

Спасибо всем техническим студентам за их энтузиастическую помощь и техническую поддержку платформы машинного обучения Ant Financial-платформа PAI Генерация векторов слов cw2vec и word2vec в эксперименте была реализована на платформе PAI, которая оказала большую помощь экспериментальной Чтобы помочь, статистический компонент PAI в данных используется для моделирования бывшего EDA. Используя ресурсы графического процессора Pai-Tensorflow и поддержку распределенного Tensorflow, весь экспериментальный процесс чрезвычайно быстро ускоряется. Я также надеюсь, что все смогут получить удовольствие от машинного обучения!

использованная литература

[1] Mikolov et al. Distributedrepresentations of words and phrases and their compositionality[C]. NIPS. 2013.

[2] Kim Y. Convolutional neuralnetworks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.

[3] Liu P, Qiu X, Huang X.Recurrent neural network for text classification with multi-task learning[J].arXiv preprint arXiv:1605.05101, 2016.

[4] Schuster M, Paliwal K K.Bidirectional recurrent neural networks[J]. IEEE Transactions on SignalProcessing, 1997, 45(11): 2673-2681.

[5] Hochreiter S, Schmidhuber J.Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.

[6] Чо К., Ван Мерриенбоер Б., Гулсере С. и др. Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода[J], препринт arXiv arXiv:1406.1078, 2014.

[7] Cao et al. cw2vec: LearningChinese Word Embeddings with Stroke n-gram Information. AAAI 2018.

[8] Sabour S, Frosst N, Hinton G E.Dynamic routing between capsules[C]//Advances in Neural Information ProcessingSystems. 2017: 3856-3866.

[9] Zhao W, Ye J, Yang M, et al.Investigating Capsule Networks with Dynamic Routing for Text Classification[J].arXiv preprint arXiv:1804.00538, 2018.

[10] Bahdanau D, Cho K, Bengio Y.Neural machine translation by jointly learning to align and translate[J]. arXivpreprint arXiv:1409.0473, 2014.

[11] Yang Z, Yang D, Dyer C, et al.Hierarchical attention networks for document classification[C]//Proceedings ofthe 2016 Conference of the North American Chapter of the Association forComputational Linguistics: Human Language Technologies. 2016: 1480-1489.

выучить больше

Подпишитесь на аккаунт Цзяньшу:Новости облачных технологий AlibabaИ личное сообщение пароль интерфейса редактора «Hello World», 300 галантереи PPT конференции Yunqi принадлежит вам!