В этой статье представлена новая языковая модель представления BERT — представление двунаправленного кодировщика от Transformer. В отличие от недавних моделей языкового представления, BERT нацелен на предварительную подготовку глубоких двунаправленных представлений на основе левого и правого контекстов всех слоев. BERT — это первая точно настроенная модель представления, обеспечивающая высочайшую производительность в большом наборе задач на уровне предложений и токенов, превосходящая многие системы, использующие архитектуры для конкретных задач и устанавливающие состояние -художественные рекорды производительности для 11 задач НЛП.
Ресурсы, связанные с BERT
Метод применения и экспериментальный эффект Jiagen BERT на китайском языке и небольшие наборы данных
Краткое содержание документа BERT
Структура модели
Основной модуль Transformer происходит отAttention Is All You Need
ввод модели
Предтренировочный метод
Модели языка маскировки (cloze) и задача прогнозирования следующего предложения.
эксперимент
Анализ модели
Effect of Pre-training Tasks
Effect of Model Size
Effect of Number of Training Steps
Feature-based Approach with BERT
в заключении
Recent empirical improvements due to transfer learning with language models have demonstrated that rich, unsupervised pre-training is an integral part of many language understanding systems. Inparticular, these results enable even low-resource tasks to benefit from very deep unidirectional architectures.Our major contribution is further generalizing these findings to deep bidirectional architectures, allowing the same pre-trained model to successfully tackle a broad set of NLP tasks. While the empirical results are strong, in some cases surpassing human performance, important future work is to investigate the linguistic phenomena that may or may not be captured by BERT.
Ресурсы, связанные с BERT
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (Submitted on 11 Oct 2018)
We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations by jointly conditioning on both left and right context in all layers. As a result, the pre-trained BERT representations can be fine-tuned with just one additional output layer to create state-of-the-art models for a wide range of tasks, such as question answering and language inference, without substantial task-specific architecture modifications. BERT is conceptually simple and empirically powerful. It obtains new state-of-the-art results on eleven natural language processing tasks, including pushing the GLUE benchmark to 80.4% (7.6% absolute improvement), MultiNLI accuracy to 86.7 (5.6% absolute improvement) and the SQuAD v1.1 question answering Test F1 to 93.2 (1.5% absolute improvement), outperforming human performance by 2.0%. Comments: 13 pages
Аннотация: В этой статье представлена новая модель языкового представления BERT, что означает представление двунаправленного кодировщика от преобразователей. В отличие от недавних моделей языкового представления (Peters et al., 2018; Radford et al., 2018), BERT нацелен на предварительную подготовку глубоких двунаправленных представлений на основе левого и правого контекстов на всех уровнях. В результате предварительно обученные представления BERT могут быть точно настроены только с одним дополнительным выходным слоем для создания современных моделей для многих задач (таких как ответы на вопросы и задачи логического вывода) без значительных изменений архитектуры для конкретной задачи. .
Концепция BERT проста, но эксперименты эффективны. Он обновляет текущие современные результаты по 11 задачам NLP, включая улучшение эталонного теста GLUE до 80,4% (абсолютное улучшение на 7,6%), повышение точности MultiNLI до 86,7% (абсолютное улучшение на 5,6%) и улучшение SQuAD. Оценка F1 в тесте вопросов и ответов v1 .1 улучшилась до 93,2 (улучшение на 1,5 балла) — на 2 балла выше, чем у человека.
Subjects: Computation and Language (cs.CL) Cite as: arXiv:1810.04805 [cs.CL] (or arXiv:1810.04805v1 [cs.CL] for this version) Bibliographic data Select data provider: Semantic Scholar [Disable Bibex(What is Bibex?)] No data available yet Submission history From: Jacob Devlin [view email] [v1] Thu, 11 Oct 2018 00:50:01 GMT (227kb,D)
Обсуждение Reddit
Официальная репродукция google-research bert
Недавно Google выпустил крупномасштабную языковую модель предварительного обучения, основанную на двунаправленном преобразователе. Модель предварительного обучения может эффективно извлекать текстовую информацию и применять ее к различным задачам НЛП. Исследование обновило текущие рекорды производительности 11 задач НЛП. с предтренировочной моделью. Если этот метод предварительной подготовки выдержит проверку практикой, то различные задачи НЛП смогут достигать очень хороших результатов с небольшим объемом данных для тонкой настройки, а BERT также станет настоящей магистральной сетью.
Introduction
BERT, or Bidirectional Encoder Representations from Transformers, is a new method of pre-training language representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks.
Our academic paper which describes BERT in detail and provides full results on a number of tasks can be found here: АР Вест V.org/ABS/1810.04….
To give a few numbers, here are the results on the SQuAD v1.1 question answering task:
SQuAD v1.1 Leaderboard (Oct 8th 2018) | Test EM | Test F1 |
---|---|---|
1st Place Ensemble - BERT | 87.4 | 93.2 |
2nd Place Ensemble - nlnet | 86.0 | 91.7 |
1st Place Single Model - BERT | 85.1 | 91.8 |
2nd Place Single Model - nlnet | 83.5 | 90.1 |
And several natural language inference tasks:
System | MultiNLI | Question NLI | SWAG |
---|---|---|---|
BERT | 86.7 | 91.1 | 86.3 |
OpenAI GPT (Prev. SOTA) | 82.2 | 88.1 | 75.0 |
Plus many other tasks.
Moreover, these results were all obtained with almost no task-specific neural network architecture design.
If you already know what BERT is and you just want to get started, you can download the pre-trained models and run a state-of-the-art fine-tuning in only a few minutes.
Воспроизвести bert_language_understanding
Pre-training of Deep Bidirectional Transformers for Language Understanding
Воспроизвести BERT-keras
Keras implementation of BERT(Bidirectional Encoder Representations from Transformers)
Воспроизвести pytorch-pretrained-BERT
PyTorch version of Google AI's BERT model with script to load Google's pre-trained models.
Набор данных BERT GLUE
КЛЕЙ из бумагиGLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
Резюме
For natural language understanding (NLU) technology to be maximally useful, both practically and as a scientific object of study, it must be general: it must be able to process language in a way that is not exclusively tailored to any one specific task or dataset. In pursuit of this objective, we introduce the General Language Understanding Evaluation benchmark (GLUE), a tool for evaluating and analyzing the performance of models across a diverse range of existing NLU tasks. GLUE is model-agnostic, but it incentivizes sharing knowledge across tasks because certain tasks have very limited training data. We further provide a hand-crafted diagnostic test suite that enables detailed linguistic analysis of NLU models. We evaluate baselines based on current methods for multi-task and transfer learning and find that they do not immediately give substantial improvements over the aggregate performance of training a separate model per task, indicating room for improvement in developing general and robust NLU systems.