Это 13-й день моего участия в ноябрьском испытании обновлений.Подробности о событии:Вызов последнего обновления 2021 г.
В EMNLP2021 есть статья под названиемFrustratingly Simple Pretraining Alternatives to Masked Language Modeling, что переводится как «разочаровывающе простая альтернатива предтренировочным задачам МЛМ». Но я ставлю на него знак вопроса, так как считаю, что методы, предложенные автором, слишком сложны для модели, и даже если бы я выполнял предложенные им предтренировочные задачи, то мог бы и не справиться. Во-вторых, судя по результатам, эффект кажется общим
Как показано на рисунке ниже, в частности, автор предлагает 4 предтренировочных задания на замену МЛМ, которыеВ случайном порядке, в случайном порядке, в случайном порядке + в случайном порядке, тип маркера, первый символ
Pretraining Tasks
Shuffle
Автор упоминает, что вдохновение для этого метода исходит от ELECTRA. В частности, 15% токенов в предложении будут случайным образом перевернуты, а затем модели необходимо выполнить анализ на уровне токенов.2 Проблемы классификации, для каждой позиции предсказать, был ли заменен токен. Преимущество этой задачи перед обучением заключается в том, что модель может получить синтаксические и семантические знания, научившись различать, зашифрован ли токен в контексте.
Для задачи Shuffle функция потерь представляет собой простую кросс-энтропийную потерю:
вПредставляет количество токенов в выборке,иоба являются векторами, иозначает первыйВероятность того, что токен будет нарушен
Random Word Detection (Random)
Произвольно выберите несколько слов из словаря (Vocabulary) и замените 15% токенов во входном предложении, даже если после замены все предложение грамматически несвязно. Это по сути то же самое2 Проблемы классификации, для каждой позиции, чтобы предсказать, был ли заменен токен, функция потерь такая же, как формула (1)
Manipulated Word Detection (Shuffle + Random)
Эта задача на самом деле представляет собой комбинацию задач «Перемешать» и «Случайно», чтобы сформировать более сложную задачу. Я действительно живу в Бенгбу. Задачи «Перемешать» и «Случайно» позволяют мне судить, что я могу их различить, но после их комбинации я действительно не смогу сделать точные суждения. Возможно, автор учел и это, поэтому коэффициенты Shuffle и Random снижены до 10% соответственно, при этом следует отметить, что эти две задачи не пересекаются, то есть не будет токена, который был перетасован, а затем использован повторно. Теперь эта задача является3 проблемы классификации. Его функция потерь также основана на кросс-энтропийных потерях.
вПеремещение в случайном порядке (), Случайный(), оригинал() эти три ярлыка,означает первыйжетон для первоговероятность метки,иявляются конкретными действительными числами.представляет собой трехмерный вектор
Masked Token Type Classification (Token Type)
Эта задача является4 Проблемы классификации, чтобы определить, является ли маркер в текущей позиции стоп-словом, числом, знаком препинания или текстовым содержимым. В частности, автор использует инструмент NLTK, чтобы определить, является ли токен стоп-словом, и, если он не принадлежит к первым трем категориям, текущий токен относится к категории основного содержимого. В частности, возьмите 15% жетонов и замените их на[MASK]
Что касается того, почему этот специальный токен сделан, я думаю, что так и должно быть: слишком легко напрямую предсказать определенный токен.Чтобы увеличить сложность, мы должны позволить модели сначала предсказать, какой токен здесь, а затем предсказать, что он принадлежит к какой категории. Его функция потерь также является кросс-энтропийной потерей.
Masked First Character Prediction (First Char)
Наконец, авторы предлагают более простой вариант задачи МЛМ. Первоначальная задача MLM должна выполнять определенную позицию.Проблемы классификации, то есть вам нужно сделать Softmax на векторе размером со словарь, эта задача на самом деле сложна, потому что набор кандидатов действительно велик и есть риск переобучения. В последней предложенной автором задаче нужно только предсказать первый символ токена, соответствующий текущей позиции, чтобы задача стала29 классификационных вопросов. В частности, есть 26 английских букв, знак, представляющий число, знак, представляющий символ метки, и знак, представляющий другие категории, всего 29 категорий. Аналогично, 15% токенов будут заменены на[MASK]
, а потом делать прогнозы
Results
Результат показан на рисунке выше, и вы можете видеть его непосредственно. На самом деле, их результаты немного трудно сказать, но авторы также упомянули, что если время обучения равно базовому уровню, они уверены, что превзойдут его. Тогда у меня вопрос, а почему вы какое-то время не тренируетесь, это чтобы догнать ДДЛ ЕМНЛП?
Персональное резюме
Основное новшество этой статьи заключается в том, что автор предлагает 5 новых предтренировочных задач, которые могут заменить MLM, Поскольку MLM является токен-уровнем, эти 5 задач также являются токен-уровнем. Предложит ли кто-нибудь в EMNLP предварительное задание на уровне предложения вместо NSP/SOP в следующем году? Еще один момент, на который можно пожаловаться, - это название этой статьи:Frustratingly Simple xxxx, простое до депрессивного хххх, это название несколько раз промелькнуло у меня в голове, есть ощущение заглавной вечеринки