Это 10-й день моего участия в ноябрьском испытании обновлений. Узнайте подробности события:Вызов последнего обновления 2021 г.
Сегодняшняя статья взята из результатов EMNLP 2021 под названием"АЭДА:An Easier Data Aметод увеличения для классификации текстов". На самом деле, это можно выразить одним предложением:Вставка некоторых знаков препинания в предложения — самый сильный метод увеличения данных для задач классификации текста.
AEDA Augmentation
Читатели наверняка захотят спросить: какие знаки препинания добавляются? Сколько? На эти вопросы в оригинальной статье даются очень подробные ответы, и эта часть также является единственной ценной частью статьи.Текстовые описания в других частях в основном говорят о каких-то базовых концепциях или работах предшественников и т. д.
Во-первых, есть шесть необязательных знаков препинания: {".", ";", "?", ":", "!", ","}. Во-вторых, пусть число добавленных знаков препинания в предложении равно,но
в,это длина предложения. Несколько примеров усиления приведены ниже.
Если вы просто говорите об этом и не практикуете фальшивую ручку, каков будет эффект? В исходной статье было проведено много экспериментов с задачами классификации текста, и по сравнению сEDAМетоды сравниваются, и интересно, что репо AEDA на гитхабе - это репо форка из бумаги EDA, как это может быть, как убивать кур и брать яйца
Сначала взгляните на следующий набор изображений, автор сравнил 5 наборов данных (модель RNN).
Влияние на BERT показано в следующей таблице: Почему 5 наборов данных протестированы выше, а результаты только 2 наборов данных показаны для BERT в статье? Я делаю дикое предположение, потому что это не очень хорошо работает с другими наборами данных, иначе нет причин не публиковать результаты для остальных наборов данных.