[Примечания к диссертации] Когда Берт алхимия не метафизика, а философия: модель Менгзи

Название статьи: Mengzi: на пути к легким, но гениальным предварительно обученным моделям для китайского языка Ссылка на бумагу:АР Вест V.org/PDF/2110.06…Код диссертации:GitHub.com/Langboat/me…Автор статьи: {Чжуошэн Чжан и др.}

В июле этого года модель Mencius, запущенная Lanzhou Technology, обновила список CLUE, авторитетный эталон оценки понимания китайского языка, который ранее доминировал в списке с моделями с 10 и 100 миллиардами параметров. Чтобы способствовать применению технологии обработки естественного языка в более широком диапазоне практических сценариев, компания Lanzhou Technology недавно открыла исходный код упрощенной модели китайского языка для предварительного обучения — модели Mencius. Модель Mencius основана на легком и эффективном учебном исследовательском маршруте, который способствует быстрой и недорогой реализации реальных бизнес-сценариев.

Использование силы для подавления других ведет к внешнему компромиссу, а настоящая власть исходит только от практичности (372–289 до н. э.).

Абстрактный

В последние годы предварительно обученные модели (PLM) добились замечательных результатов в различных задачах НЛП, улучшив производительность предыдущих традиционных моделей глубокой последовательности.Хорошо известно, что обучение предварительно обученных моделей «дорого» с точки зрения времени и ресурсы, а несколько Десяток карт 3090 или А100 не упоминают Соту. Это требует от нас использования меньшего количества вычислительных ресурсов для обучения более эффективных моделей, при этом гарантируя высокую производительность моделей PLM. Автор этой статьи не использует крупномасштабную модель обучения, но стремится разработать более легкую и мощную модель производительности и предлагает китайскую модель предварительного обучения Mengzi, По сравнению с другими моделями китайского языка, самая большая особенность Модель Mencius заключается в том, что она маленькая и тонкая, всего с 1 миллиардом параметров, она вошла в тройку лучших в списке CLUE для понимания естественного китайского языка. Он использует упрощенную стратегию обучения и стремится построить небольшую модель с миллиардами параметров, полностью раскрывая потенциал модели при существующих параметрах, что способствует быстрой и недорогой реализации реальных бизнес-сценариев.

Введение модели

На фоне того, что предобучающие модели (PLM) становятся все более и более популярными, их производительность становится все выше, а реальные сцены приземления становятся все богаче и богаче, предобучающие модели постепенно демонстрируют следующие тенденции:

（1）bigger Model、more Data：模型更大、数据更多
（2）more efficient architecture、 pre-training methodology：更强大的模型结构与预训练方法
（3） domain- and task-aware pre-training：领域和任务启发式预训练任务
（4）unification of vision and language modeling：视觉与文本的多模态模型

Несмотря на удобство использования, plm в настоящее время потребляет дорогостоящие ресурсы и время, что препятствует широкому практическому применению предварительно обученных моделей. Поэтому, учитывая ресурсы и затраты на разработку, индустрии срочно нужна модель среднего размера, но мощная. С технической точки зрения основные проблемы с легковесными языковыми моделями лежат в двух областях:

(1)有效的训练目标，能够快速捕获语义知识
(2)有效的策略,能够快速训练语言模型。

Во-вторых, производительность модели PLM очень мощная и эффективная, и она может собирать синтаксическую и семантическую информацию, но также сталкивается с некоторыми проблемами, такими как сложность сходимости модели и высокая стоимость обучения. Цель разработки эффективных языковых моделей — одна из основных тем обучения предварительно обученных моделей, которая может определить, насколько хорошо модель может получать знания из крупномасштабных немаркированных данных. В настоящее время для улучшения возможностей предварительно обученных моделей появились стратегии шумоподавления (стратегии шумоподавления), структуры моделей (такие как XLNET) и вспомогательные цели. Тем не менее, эти передовые технологии в основном ориентированы на английский язык, и существует несколько моделей на таких языках, как китайский.С учетом потребностей приложений в конкретных областях, таких как финансовый анализ и мультимодальность, разработка китайских моделей предварительного обучения получила дальнейшее развитие. продвигается.

Наконец, возвращаясь к эффективности модели, согласно предыдущим исследованиям, методы ускорения модели перед обучением в основном представляют собой дистилляцию знаний и сжатие модели, но они не являются лучшим решением для реальных приложений. Метод дистилляции знаний обучает модель ученика под руководством крупномасштабной модели учителя, что требует двухэтапного обучения, а обучение модели учителя по-прежнему потребляет много вычислительных ресурсов. Точно так же сжатие модели направлено на обучение простой и оптимизированной модели без значительного снижения точности, и его широко используемые методы включают совместное использование параметров, замену модуля, сокращение и квантование. Такие линии методов по-прежнему требуют большой подготовки. Кроме того, эти методы резко меняются в архитектуре модели, поэтому их трудно реализовать в реальном мире, и они несовместимы с широко используемыми платформами, такими как набор инструментов для трансформаторов. (Кажется, автор этой статьи много думал о реализации совместимости объятий).

Целью данной статьи является не создание модели большего масштаба, а создание более легкой, но более мощной модели и в то же время более удобной для развертывания и промышленной посадки. На основе таких методов, как интеграция лингвистической информации и ускорение обучения, были разработаны модели серии Mengzi. Благодаря согласованной структуре модели с BERT модели Mengzi могут быстро заменить существующие предварительно обученные модели. Есть три основных вклада этой работы:

1) Исследованы различные стратегии предварительного обучения для обучения облегченных языковых моделей, показывающие, что хорошо разработанные цели могут еще больше значительно увеличить пропускную способность модели без увеличения ее размера.
2 Выпущенные модели Менгзи, включая варианты дискриминативной, генеративной, финансовой и мультимодальной модели, способные выполнять широкий спектр языковых и зрительных задач. Кодировщики текста в этих моделях содержат всего 103 миллиона параметров, что, как мы надеемся, облегчит соответствующие исследования как в научных кругах, так и в промышленности.
3) Тесты на большом количестве контрольных задач показывают, что модель Mencius обеспечивает высокую производительность в ряде задач понимания языка и генерации.

кодировщик текста

Как показано, семейство моделей Mengzi включает:

Mengzi-BERT-base
Mengzi-BERT-base-fin
Mengzi-T5-base
Mengzi-Oscar-base

С точки зрения сценария приложения они варьируются от моделей на простом тексте до мультимодальных вариантов, от общего обучения до адаптации к предметной области. Особенности заключаются в следующем:

С технической точки зрения последние три можно рассматривать как производные от Mengzi-BERT-base, поскольку их кодировщики текста имеют ту же структуру, что и Mengzi-BERT-base, и инициализируются предварительно обученными параметрами Mengzi-BERT-base. база . Поэтому в экспериментальном разделе ниже статья фокусируется только на основных аспектах текстового кодировщика и связанных с ними эффективных методах оптимизации.

Настройки модели

Предварительная обработка данных: корпус перед обучением берется из китайской Википедии, китайских новостей и корпуса поискового робота с общим объемом данных 300 ГБ. Очистите данные, используя методы исследовательского анализа данных, чтобы удалить теги HTML, URL-адреса, электронные письма, смайлики и т. д. Поскольку в исходном корпусе есть упрощенные токены и традиционные китайские токены, при использовании OpenCC для преобразования традиционных токенов в упрощенную форму дублирующиеся статьи также удаляются.
Структура модели: RoBERTa выбрана в качестве предварительно обученной базовой модели Менгзи, с 12 слоями преобразователей, скрытым размером 768, 12 головками внимания и задачей предварительного обучения является MLM.
Подробности перед обучением: (1) Словарь содержит 21 128 символов, что соответствует размеру Берта. Длина предложения ограничена 512 символами, а размер пакета — 128. (2) Перед обучением 15% слов в каждой последовательности случайным образом маскируются для предсказания MLM. (3) Использование смешанно-пакетного метода обучения оптимизатора LAMB, который включает два этапа: первые 9/10 общей эпохи используют длину последовательности 128, а последняя 1/10 общей эпохи использует длину последовательности из 512. Размер партии для этих двух этапов составляет 16384 и 32768 соответственно. PostgreSQL используется для глобальной выборки обучающих примеров, чтобы избежать дисбаланса весов выборки при двухэтапном обучении. Весь процесс предварительной подготовки требует 1 миллиона шагов. Используйте 32 3090 24G, используйте FP16 и глубину 4 для обучения ускорению (могу сказать только местные тираны).

модельный эксперимент

Для последующей задачи оценки модели в тексте используется тест оценки понимания китайского языка (CLUE), включающий шесть различных задач понимания естественного языка: сопоставление финансовых вопросов Ant (AFQMC), классификация текста заголовков новостей (TNEWS), текст на китайском языке (CO, 2019) ), Китайский перевод Multigenic Natural Language Inference (CMNLI), Китайский тест машинного интеллекта (WSC), Китайская научная литература (CSL) и три задачи машинного чтения (MRC): понимание китайского машинного чтения (CMRC), гештальт китайского языка Заполните пропуски (CHID) и понимание прочитанного с несколькими вариантами ответов на китайском языке (C3).Из приведенной выше таблицы видно, что модель Mengzi имеет улучшенные характеристики по сравнению с другими китайскими моделями предварительной подготовки.

Точная настройка деталей

В экспериментах по точной настройке в качестве оптимизатора в статье используется Адам, начальная скорость обучения составляет {8e-6, 1e-5, 2e-5, 3e-5}, скорость прогрева составляет 0,1, а вес L2 распад 0,01. Размер пакета будет выбран из {16, 24, 32}. В зависимости от задачи максимальные эпохи устанавливаются в [2, 5]. Для максимальной длины текста: максимальная длина MRC — 384, для других задач — 256.

Расширенный PLM

В тексте дополнительно исследуются методы предварительной подготовки и тонкой настройки для дальнейшего улучшения возможностей модели Мензи.

предтренировочная техника

Linguistic-motivated Objectives: Было показано, что семантическая информация эффективна для языкового моделирования. Вдохновленные LIMIT-Bert, задачи маркировки последовательностей частей речи (POS) и именованных объектов (NE) используются перед обучением, а исходные цели MLM и NSP объединяются. Теги POS и NE в исходном тексте аннотированы spaCy.
Sequence Relationship Objectives: Чтобы лучше моделировать информацию о паре предложений между предложениями, Mengzi добавляет задачу прогнозирования порядка предложений (SOP) для моделирования предварительного обучения.
Dynamic Gradient Correction: широко используемый MLM может вызвать помехи в исходной структуре предложения, что приведет к потере семантики, усложнит прогнозирование модели и неизбежно приведет к недостаточному обучению и неэффективности. Чтобы решить эту проблему, в этой статье предлагается ряд методов коррекции динамического градиента для повышения производительности и надежности модели.

стратегия тонкой настройки

Дистилляция знаний: текст обучает модель учителя и использует модель учителя для управления обучением модели ученика. В частности, расхождение Кульбака-Лейблера (KL) контекстуальных скрытых состояний одной и той же входной последовательности вычисляется отдельно. Разница измеряет сходство между представлениями моделей учителя и ученика, минимизированных вместе с исходной целью нижестоящей задачи во время тонкой настройки.

Передача обучения: передача обучения для различных задач, таких как использование параметров модели обучения в наборе данных CMNLI для инициализации обучения модели в C3 и других связанных наборах данных.
Сглаживание выбора. Для задач с множественным выбором или классификацией сочетание различных типов целей обучения приводит к повышению производительности. Для каждого входного примера мы применяем кросс-энтропию и бинарную кросс-энтропию в качестве функций потерь и объединяем потери с обеих сторон, чтобы помочь модели изучить функции с разной степенью детализации.
Состязательное обучение: метод состязательной регуляризации с плавным индуцированием: SMART применяется для поддержки того, что выходные данные модели не сильно меняются, когда на вход вводится небольшое возмущение.

увеличение данных

боевые задачи

# 使用 Huggingface transformers 加载
from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained("Langboat/mengzi-bert-base")
model = BertModel.from_pretrained("Langboat/mengzi-bert-base")

Генерация маркетинговых копий

На рис. 2 сравнивается качество текстов маркетинговых копий, сгенерированных на основе базовой модели Monno-T5 и GPT. Учитывая введенный заголовок и ключевые слова, модель должна генерировать соответствующие описательные абзацы. Из сгенерированных примеров видно, что текст, сгенерированный базовой моделью monno-t5, содержит больше деталей при сохранении беглости, что позволяет предположить, что генерация текста с использованием модели Mengzi выиграет от удовлетворительной разнообразной беглости и связности.

Финансовые задачи

Документы оцениваются в финансовых задачах, таких как поиск информации, распознавание сущностей и связывание сущностей в финансовых задачах, таких как поиск информации, распознавание сущностей, извлечение отношений и связывание сущностей. Извлечение объектов (например, событий) из LUGE для задач распознавания объектов. Для оценки других задач используйте самостоятельно собранные наборы данных. Результаты в таблице 6 показывают, что наш метод способен выполнять задачи, характерные для финансовой области, особенно Mengzi-BERT-base-fin дает наилучшие результаты.

Описание изображения

В статье сравнивается производительность подписей к изображениям на базе Mengzi-Oscar с широко используемыми автоматическими методами автотекста. На рисунке 3 показано тематическое исследование, основанное на случайно выбранных примерах из набора AIC-ICCVal. Можно заметить, что наша модель генерирует более плавные и информативные подписи по сравнению с базовой версией.

Суммировать

Основываясь на следующих стратегиях алгоритма, он может эффективно изучать знания, охватывающие уровень слова, уровень предложения и уровень дискурса, из корпуса, значительно улучшить способность языковой модели извлекать языковую структуру и семантическую информацию, а также хорошую способность переноса предметной области и адаптироваться к широкому спектру сценариев применения продукта.

В то же время, с точки зрения тонкой настройки, были проведены некоторые исследования с точки зрения улучшения данных, извлечения знаний, обучения переносу, оптимизации обучения и т. Д., Чтобы еще больше повысить производительность языковой модели:

Расширение данных: используйте данные, относящиеся к предметной области;
Дистилляция знаний: повышение эффективности обучения на основе самодистилляции Учитель-Ученик;
Трансферное обучение: объедините идею обучения по учебной программе и обучайте последующие модели от простого к сложному;
Оптимизация обучения: используйте различные цели обучения, чтобы улучшить возможности модели с разных точек зрения;