Краткое введение в несколько методов улучшения текстовых и графических данных

машинное обучение глубокое обучение
Краткое введение в несколько методов улучшения текстовых и графических данных

Это 6-й день моего участия в ноябрьском испытании обновлений.Подробности о событии:Вызов последнего обновления 2021 г.

В реальных сценариях мы часто не собираем слишком много данных, поэтому, чтобы расширить набор данных, мы можем использовать методы улучшения данных для увеличения выборки, так как же мы обычно должны делать улучшение данных?

Что такое увеличение данных

Расширение данных также называется дополнением данных, что означает, что ограниченные данные могут давать ценность, эквивалентную большему количеству данных, без существенного увеличения данных.

Увеличение данных можно разделить наКонтролируемое увеличение данныхиНеконтролируемое увеличение данныхметод. Среди них контролируемое увеличение данных можно разделить наУвеличение данных одной выборкииУвеличение данных с несколькими выборкамиметод, неконтролируемое увеличение данных делится нагенерировать новые данныеиСтратегии улучшения обученияоба направления.

Поддержка улучшения данныхАудио, изображение, текст и видеоЭти четыре типа данных в этой статье в основном объясняют методы улучшения данных для текста и изображений.

Методы увеличения текстовых данных

Для текстовых данныхТрадиционные эффективные методы увеличения данныхОдин из них — добавление шума, а другой — обратный перевод, оба из которых являются контролируемыми методами.добавлять шумТо есть создавать новые данные, аналогичные исходным данным, путем замены слов, удаления слов и т. д. на основе исходных данных.обратный переводЭто перевод исходных данных на другие языки, а затем обратный перевод на исходный язык.

  • Обратный перевод (перевод дважды, например, с китайского на английский, затем с английского на китайский). Из-за разницы в логическом порядке языков методы обратного перевода часто могут получать новые данные, сильно отличающиеся от исходных данных.
  • EDA (Easy Data Augmentation for Text Classification Tasks) заменяет, вставляет, обменивает и удаляет синонимы.
  1. SR: Синонимы заменить: Независимо от стоп-слов, случайным образом выбрать n слов в предложении, а затем случайным образом извлечь синонимы из словаря тезауруса и заменить их.
  2. RI: случайная вставка: независимо от стоп-слов случайным образом выберите слово, а затем случайным образом выберите одно слово из набора синонимов слова и вставьте его в случайное место в исходном предложении. Этот процесс можно повторить n раз.
  3. Случайный обмен (RS: Случайный обмен): В предложении случайным образом выбираются два слова и меняются местами. Этот процесс можно повторить n раз.
  4. RD: случайное удаление: Для каждого слова в предложении удалите его случайным образом с вероятностью p.

В дополнение к традиционной аугментации данных мы также можем использоватьМетоды увеличения данных глубокого обучения, например Mixmatch, который является полуконтролируемым методом. (Методы полуконтролируемого обучения были предложены, чтобы лучше использовать немаркированные данные и уменьшить зависимость от крупномасштабных наборов размеченных данных; сегодня они также оказались мощной парадигмой обучения.)

Способ работы Mixmatch заключается в угадывании меток с низкой энтропией немеченых образцов, сгенерированных методом увеличения данных MixUp, и смешивании немеченых данных с помеченными данными.

Традиционные методы увеличения данных имеют определенные эффекты, но они в основном нацелены на небольшие объемы данных.Для моделей глубокого обучения, которым требуется большой объем обучающих данных, традиционные методы всегда ограничены в действии. иUnsupervised Data Augmentation (UDA) Метод неконтролируемого увеличения данныхПредложение открыло дверь для большого количества недостающих данных.

В дополнение к использованию обычного увеличения данных, алгоритм MixMatch имеет еще один секрет, называемый дополнением Mixup. Успех UDA обусловлен использованием целевых алгоритмов увеличения данных для конкретных задач.

По сравнению с обычным шумом, таким как гауссов шум и шум отсева, UDA может генерировать более эффективные данные, используя различные методы увеличения данных для разных задач. Этот метод может генерировать эффективный и реалистичный шум, и шум разнообразен.

Кроме того, стратегии увеличения данных, ориентированные на цель и производительность, могут научиться находить отсутствующие или наиболее желательные обучающие сигналы в исходном размеченном наборе (например, увеличение данных изображения с ориентацией на цвет).

Методы увеличения данных изображения

Для данных изображений мы часто используем следующие методы:

  1. Используйте случайную обрезку. Обрежьте часть исходного изображения, например четыре угла, центр или верхнюю и нижнюю части и т. д., но размер обрезки не должен быть слишком маленьким.
  2. Переверните или отразите исходное изображение. Его можно переворачивать горизонтально или вертикально.
  3. Поверните исходное изображение. Исходное изображение можно поворачивать под разными углами для увеличения выборки.
  4. Вы можете настроить яркость или контраст исходного изображения. Чтобы сделать изображение ярче или темнее, увеличьте или уменьшите контрастность.
  5. Регулирует цветность исходного изображения. Изменение соотношения компонентов цвета R, G, B.
  6. Отрегулируйте насыщенность изображения. Так называемая насыщенность относится к чистоте цвета.Чем выше чистота, тем ярче исполнение, чем ниже чистота, тем тусклее исполнение.

Кроме того, мы также можем использовать изображениеРазмытие по Гауссу, повышение резкости, добавление шума и преобразование в оттенки серогои другие методы.

Инструментарий

Для текстовых данных на китайском языке вы можете использоватьtextda, который представляет собой набор инструментов для увеличения текстовых данных на китайском языке.

иeda_nlp, простой метод увеличения данных для повышения производительности при выполнении задач классификации текста.

Кроме того, мы также можем использовать некоторые другие инструменты с открытым исходным кодом для увеличения данных, такие какAugLy. Это библиотека Python для увеличения данных с открытым исходным кодом от Facebook. В настоящее время библиотека поддерживаетАудио, изображение, текст и видеоЧетыре режима, с одной стороны, могут улучшить данные с помощью реальных данных, а с другой стороны, могут обнаруживать похожий контент и устранять помехи, вызванные повторяющимися данными.

Справочная документация