В этой статье представлена новая языковая модель представления BERT — представление двунаправленного кодировщика от Transformer. В отличие от недавних моделей языкового представления, BERT нацелен на предварительную подготовку глубоких двунаправленных представлений на основе левого и правого контекстов всех слоев. BERT — это первая точно настроенная модель представления, обеспечивающая высочайшую производительность в большом наборе задач на уровне предложений и токенов, превосходящая многие системы, использующие архитектуры для конкретных задач и устанавливающие состояние -художественные рекорды производительности для 11 задач НЛП.

Ресурсы, связанные с BERT

Метод применения и экспериментальный эффект Jiagen BERT на китайском языке и небольшие наборы данных

заглавие	инструкция	дополнительный
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding	оригинальная бумага	20181011
Обсуждение Reddit	Авторское обсуждение
BERT-pytorch	Google AI 2018 BERT pytorch implementation
Интерпретация статьи: модель BERT и тонкая настройка	Интерпретация диссертации Си Сянъюй
Сильнейшая предтренировочная модель НЛП! Google BERT проверяет 11 записей задач НЛП	Анализ диссертации
[NLP] Подробное объяснение Google BERT	Интерпретация Ли Люмо
Как оценить модель BERT?	Интерпретировать идеи диссертации
Подробная интерпретация модели BERT, прорывного достижения НЛП	Интерпретация шариков осьминога
Самая сильная интерпретация BERT модели НЛП от Google	Обзор технологий искусственного интеллекта
Предварительно обучая BERT, они решили его с помощью TensorFlow до того, как был выпущен официальный код.	Инструкция по воспроизведению дипломной работы	20181030
Google наконец открыл исходный код BERT: 300 миллионов параметров, исчерпывающая интерпретация сердца машины		20181101
Почему вы говорите, что Берт творит чудеса?		20181121
Полное практическое руководство по тонкой настройке BERT	Полная стратегия тонкой настройки BERT на китайском наборе данных	20181123
Реализация BERT с открытым исходным кодом, которая обеспечивает значительное улучшение при очень малых объемах данных.	Чжан Цзюнь	20181127

Краткое содержание документа BERT

Структура модели

Основной модуль Transformer происходит отAttention Is All You Need

ввод модели

Предтренировочный метод

Модели языка маскировки (cloze) и задача прогнозирования следующего предложения.

эксперимент

Анализ модели

Effect of Pre-training Tasks

Effect of Model Size

Effect of Number of Training Steps

Feature-based Approach with BERT

в заключении

Recent empirical improvements due to transfer learning with language models have demonstrated that rich, unsupervised pre-training is an integral part of many language understanding systems. Inparticular, these results enable even low-resource tasks to benefit from very deep unidirectional architectures.Our major contribution is further generalizing these findings to deep bidirectional architectures, allowing the same pre-trained model to successfully tackle a broad set of NLP tasks. While the empirical results are strong, in some cases surpassing human performance, important future work is to investigate the linguistic phenomena that may or may not be captured by BERT.

Ресурсы, связанные с BERT

заглавие	инструкция	дополнительный
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding	оригинальная бумага	20181011
Обсуждение Reddit	Авторское обсуждение
BERT-pytorch	Google AI 2018 BERT pytorch implementation
Интерпретация статьи: модель BERT и тонкая настройка	Интерпретация диссертации Си Сянъюй
Сильнейшая предтренировочная модель НЛП! Google BERT проверяет 11 записей задач НЛП	Анализ диссертации
[NLP] Подробное объяснение Google BERT	Интерпретация Ли Люмо
Как оценить модель BERT?	Интерпретировать идеи диссертации
Подробная интерпретация модели BERT, прорывного достижения НЛП	Интерпретация шариков осьминога
Самая сильная интерпретация BERT модели НЛП от Google	Обзор технологий искусственного интеллекта
Предварительно обучая BERT, они решили его с помощью TensorFlow до того, как был выпущен официальный код.	Инструкция по воспроизведению дипломной работы	20181030
Google наконец открыл исходный код BERT: 300 миллионов параметров, исчерпывающая интерпретация сердца машины		20181101

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (Submitted on 11 Oct 2018)

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT representations can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial task-specific architecture modifications. BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE benchmark to 80.4% (7.6% absolute improvement), MultiNLI accuracy to 86.7 (5.6% absolute improvement) and the SQuAD v1.1 question answering Test F1 to 93.2 (1.5% absolute improvement), outperforming human performance by 2.0%. Comments: 13 pages

Аннотация: В этой статье представлена новая модель языкового представления BERT, что означает представление двунаправленного кодировщика от преобразователей. В отличие от недавних моделей языкового представления (Peters et al., 2018; Radford et al., 2018), BERT нацелен на предварительную подготовку глубоких двунаправленных представлений на основе левого и правого контекстов на всех уровнях. В результате предварительно обученные представления BERT могут быть точно настроены только с одним дополнительным выходным слоем для создания современных моделей для многих задач (таких как ответы на вопросы и задачи логического вывода) без значительных изменений архитектуры для конкретной задачи. .

Концепция BERT проста, но эксперименты эффективны. Он обновляет текущие современные результаты по 11 задачам NLP, включая улучшение эталонного теста GLUE до 80,4% (абсолютное улучшение на 7,6%), повышение точности MultiNLI до 86,7% (абсолютное улучшение на 5,6%) и улучшение SQuAD. Оценка F1 в тесте вопросов и ответов v1 .1 улучшилась до 93,2 (улучшение на 1,5 балла) — на 2 балла выше, чем у человека.

Subjects: Computation and Language (cs.CL) Cite as: arXiv:1810.04805 [cs.CL] (or arXiv:1810.04805v1 [cs.CL] for this version) Bibliographic data Select data provider: Semantic Scholar [Disable Bibex(What is Bibex?)] No data available yet Submission history From: Jacob Devlin [view email] [v1] Thu, 11 Oct 2018 00:50:01 GMT (227kb,D)

Обсуждение Reddit

Официальная репродукция google-research bert

Недавно Google выпустил крупномасштабную языковую модель предварительного обучения, основанную на двунаправленном преобразователе. Модель предварительного обучения может эффективно извлекать текстовую информацию и применять ее к различным задачам НЛП. Исследование обновило текущие рекорды производительности 11 задач НЛП. с предтренировочной моделью. Если этот метод предварительной подготовки выдержит проверку практикой, то различные задачи НЛП смогут достигать очень хороших результатов с небольшим объемом данных для тонкой настройки, а BERT также станет настоящей магистральной сетью.

Introduction

BERT, or Bidirectional Encoder Representations from Transformers, is a new method of pre-training language representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks.

Our academic paper which describes BERT in detail and provides full results on a number of tasks can be found here: АР Вест V.org/ABS/1810.04….

To give a few numbers, here are the results on the SQuAD v1.1 question answering task:

SQuAD v1.1 Leaderboard (Oct 8th 2018)	Test EM	Test F1
1st Place Ensemble - BERT	87.4	93.2
2nd Place Ensemble - nlnet	86.0	91.7
1st Place Single Model - BERT	85.1	91.8
2nd Place Single Model - nlnet	83.5	90.1

And several natural language inference tasks:

System	MultiNLI	Question NLI	SWAG
BERT	86.7	91.1	86.3
OpenAI GPT (Prev. SOTA)	82.2	88.1	75.0

Plus many other tasks.

Moreover, these results were all obtained with almost no task-specific neural network architecture design.

If you already know what BERT is and you just want to get started, you can download the pre-trained models and run a state-of-the-art fine-tuning in only a few minutes.

Воспроизвести bert_language_understanding

Pre-training of Deep Bidirectional Transformers for Language Understanding

Воспроизвести BERT-keras

Keras implementation of BERT(Bidirectional Encoder Representations from Transformers)

Воспроизвести pytorch-pretrained-BERT

PyTorch version of Google AI's BERT model with script to load Google's pre-trained models.

Набор данных BERT GLUE

КЛЕЙ из бумагиGLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

Резюме

For natural language understanding (NLU) technology to be maximally useful, both practically and as a scientific object of study, it must be general: it must be able to process language in a way that is not exclusively tailored to any one specific task or dataset. In pursuit of this objective, we introduce the General Language Understanding Evaluation benchmark (GLUE), a tool for evaluating and analyzing the performance of models across a diverse range of existing NLU tasks. GLUE is model-agnostic, but it incentivizes sharing knowledge across tasks because certain tasks have very limited training data. We further provide a hand-crafted diagnostic test suite that enables detailed linguistic analysis of NLU models. We evaluate baselines based on current methods for multi-task and transfer learning and find that they do not immediately give substantial improvements over the aggregate performance of training a separate model per task, indicating room for improvement in developing general and robust NLU systems.