Hengyuan Cloud_Какие слова (не) следует выбирать при дополнении текстовых данных?

Источник статьи | Облачное сообщество Hengyuan (Hengyuan Cloud, платформа общей вычислительной мощности, ориентированная на индустрию искусственного интеллекта.)

Исходный адрес |заметки к диссертации

Оригинальный автор | Матор

Я здесь или меня там нет, большой парень там и продолжает писать!

Итак, я просто перенесу это честно!

Текст начинается:

Расширение текста теперь используется большинством людей, поскольку оно может помочь улучшить эффект классификации текста.В частности, часто используемые методы включают, помимо прочего, замену, удаление и добавление. Вообще говоря, увеличение текста улучшит конечную производительность, а в некоторых случаях и ухудшит ее. Возможно, вы подумали, что некоторые важные слова в предложении стираются из-за таких методов, как удаление и замена, но, в конце концов, какие слова являются важными словами в предложении? Какие слова можно усиливать, а какие нельзя?

В ACL2022 есть статья под названием "Роли слов: что следует (не) дополнять при дополнении текста в задачах классификации текста?«В материалах изучен этот вопрос и даны рекомендации. Во-первых, автор обучил набор данных FD News, и окончательная точность на тестовом наборе составила 98,92%, что показывает, что модель очень хорошо соответствует набору данных. Затем автор вручную вводит несколько тестовых образцов, как показано ниже 在这里插入图片描述 Поскольку слова «баскетбол» и «спортсмены» часто встречаются в тренировочных выборках класса «спорт», модель может очень точно предсказать их как «спортивный» класс, однако из 2-й и 4-й выборок показатели модель Не так хороша, как мы думали. Поскольку «На основе» и «команда» часто появляются вместе с предложениями категории «спорт» в обучающем наборе, модель, естественно, будет иметь небольшую «предвзятость» после обучения на таком наборе данных; из последнего примера, Модель не может правильно определить специализированную лексику, относящуюся к спорту: трехочковый

Приведенный выше пример вдохновил нас взглянуть на каждое слово в предложении с точки зрения как «статистической релевантности», так и «семантического сходства». В частности, мы можем назначить «роль» каждому слову с этих двух точек зрения, всего 4 роли:

Общие слова, указывающие класс (CC-слова): высокая статистическая корреляция и высокое семантическое сходство
Определенные слова, указывающие класс (SC-слова): низкая статистическая корреляция и высокое семантическое сходство
Слова, указывающие промежуточный класс (IC-слова): высокая статистическая релевантность и низкое семантическое сходство.
Нерелевантные слова/другие слова (O-слова): низкая статистическая корреляция и низкое семантическое сходство

STATISTICAL CORRELATION & SEMANTIC SIMILARITY

Автор использует взвешенное логарифмическое отношение правдоподобия (WLLR) для измерения статистической корреляции между каждым словом в предложении и категорией.Оценка WLLR рассчитывается следующим образом: 在这里插入图片描述

в, $w$ это слово; $y$ является категорией; $\bar{y}$ представляют все категории. $\text{wllr}(w,y)$ больше, слово $w$ с категорией $y$ Чем выше статистическая корреляция между

Чтобы измерить семантическое сходство двух слов, наиболее прямым способом является вычисление косинусного сходства двух векторов, но здесь автор не использует более сложную модель на основе BERT для извлечения вектора слова, потому что это требует относительно большие вычислительные ресурсы. Автор напрямую использует простой метод Word2Vec для получения вектора слов. Формула расчета предварительного подобия выглядит следующим образом: 在这里插入图片描述

в, $l$ представляет категорию, $v_w,v_l$ Векторные представления, представляющие слова и категории соответственно

Вообще говоря, категории описываются текстом, например, «спорт», «компьютер» и т. д. Мы напрямую используем их описания как $l$

После вычисления статистической корреляции и косинусного сходства всех слов в данном предложении мы устанавливаем порог, позволяющий различать высокие (низкие) оценки WLLR. $C_h(C_l)$ , а также различать высокие (младшие) дроби косинуса $S_h(S_l)$

在这里插入图片描述

в, $W_{CC}, W_{SC}, W_{IC}, W_{O}$ Представляют CC-слова, SC-слова, IC-слова и O-слова соответственно. Реальный образец выглядит следующим образом 在这里插入图片描述

RESULTS

Порог, используемый авторами в эксперименте, представляет собой медиану двух показателей. Первый — удалить эксперимент. 在这里插入图片描述 Из результатов следует, что удаление CC-слов оказывает очень большое влияние на снижение производительности, а удаление SC-слов и IC-слов имеет более положительный эффект. На самом деле, первый вывод сделать легко, потому что CC-слова и теги имеют одновременно высокую корреляцию и высокое семантическое сходство, и их удаление определенно сильно снизит точность оценки модели. Но последний вывод немного не согласуется с моей догадкой, и я изначально думал, что О-слова будет лучше удалить, потому что О-слова не очень релевантны тегам, и удалять их не вредно. Но дело в том, что удаление SC-слов и IC-слов работает лучше.Объяснение в статье состоит в том, что, поскольку SC-слова имеют низкую статистическую корреляцию с тегами и высокое семантическое сходство, удаление этих слов может заставить модель платить больше. внимание на CC-слова слова. Статистическая корреляция между IC-словами и метками относительно высока, а семантическое сходство относительно низкое.В статье поясняется, что IC-слова обычно представляют собой некоторые данные с шумом и смещением. Их удаление может помочь модели избежать неправильного обучения о категории. особенность

Точно так же автор также использовал методы увеличения данных, вставки, замены и обмена.Результаты здесь не перечислены.Заинтересованные читатели могут прочитать оригинальную статью самостоятельно. Ниже размещена таблица, которая представляет собой краткую информацию об использовании автором четырех методов увеличения данных. 在这里插入图片描述

Персональное резюме

В этой статье предлагается метод выборочного увеличения текста. В частности, в документе устанавливаются четыре роли, каждому слову назначается роль, и он оперирует словами с разными ролями перед лицом разных методов усиления. Это может эффективно избежать потери информации и генерировать высококачественные текстовые данные.