Оказывается, самым сильным методом увеличения данных является добавление знаков препинания?

искусственный интеллект алгоритм

Это 10-й день моего участия в ноябрьском испытании обновлений. Узнайте подробности события:Вызов последнего обновления 2021 г.

Сегодняшняя статья взята из результатов EMNLP 2021 под названием"АЭДА:An Easier Data Aметод увеличения для классификации текстов". На самом деле, это можно выразить одним предложением:Вставка некоторых знаков препинания в предложения — самый сильный метод увеличения данных для задач классификации текста.

AEDA Augmentation

Читатели наверняка захотят спросить: какие знаки препинания добавляются? Сколько? На эти вопросы в оригинальной статье даются очень подробные ответы, и эта часть также является единственной ценной частью статьи.Текстовые описания в других частях в основном говорят о каких-то базовых концепциях или работах предшественников и т. д.

Во-первых, есть шесть необязательных знаков препинания: {".", ";", "?", ":", "!", ","}. Во-вторых, пусть число добавленных знаков препинания в предложении равноnn,но

nе[1,13l]n\in [1, \frac{1}{3}l]

в,llэто длина предложения. Несколько примеров усиления приведены ниже.

Originala sad , superior human comedy played out on the back roads of life .Aug 1a sad , superior human comedy played out on the back roads ; of life ; .Aug 2a , sad . , superior human ; comedy . played . out on the back roads of life .Aug 3: a sad ; , superior ! human : comedy , played out ? on the back roads of life .\begin{array}{cc} \hline \textbf{Original} & \text{a sad , superior human comedy played out on the back roads of life .} \\ \hline \textbf{Aug 1} & \text{a sad , superior human comedy played out on the back roads ; of life ; .}\\ \hline \textbf{Aug 2} & \text{a , sad . , superior human ; comedy . played . out on the back roads of life .}\\ \hline \textbf{Aug 3} & \text{: a sad ; , superior ! human : comedy , played out ? on the back roads of life .}\\ \hline \end{array}

Если вы просто говорите об этом и не практикуете фальшивую ручку, каков будет эффект? В исходной статье было проведено много экспериментов с задачами классификации текста, и по сравнению сEDAМетоды сравниваются, и интересно, что репо AEDA на гитхабе - это репо форка из бумаги EDA, как это может быть, как убивать кур и брать яйца

Сначала взгляните на следующий набор изображений, автор сравнил 5 наборов данных (модель RNN).

Влияние на BERT показано в следующей таблице: Почему 5 наборов данных протестированы выше, а результаты только 2 наборов данных показаны для BERT в статье? Я делаю дикое предположение, потому что это не очень хорошо работает с другими наборами данных, иначе нет причин не публиковать результаты для остальных наборов данных.

ModelSST2TRECBERT91.1097.00+EDA90.9996.00+AEDA91.7697.20\begin{array}{c|cc} \text{Model} & \text{SST2} & \text{TREC} \\ \hline \text{BERT} & 91.10 & 97.00\\ \hline \text{+EDA} & 90.99 & 96.00\\ \hline \text{+AEDA} & \pmb{91.76} & \pmb{97.20}\\ \end{array}

Reference