Видео введение:Научитесь рассуждать о таблицах из меньшего количества данных
Задача определения следования текста, также известная как вывод на естественном языке, включает в себя определение того, может ли одна часть текста (предпосылка) подразумеваться или противоречить другой (гипотезе) (или ни то, ни другое). Хотя этот вопрос часто считается важной проверкой логических способностей систем машинного обучения (ML), а ввод простого текста хорошо изучен, инвестиции в применение таких моделей к структурированным данным (например, веб-сайтам, таблицам) Гораздо меньше усилий, баз данных , и т.д. Однако идентификация текстового следования особенно важна, когда содержимое таблицы необходимо точно обобщить и представить пользователю, а также для высокоточных систем ответов на вопросы и виртуальных помощников.
В статье «Понимание таблиц с помощью промежуточного предварительного обучения» в выводах, опубликованных на EMNLP 2020, мы представляем первую задачу предварительного обучения, адаптированную для синтаксического анализа таблиц, позволяющую моделям лучше и быстрее учиться на меньшем количестве данных. Мы основываемся на нашей более ранней модели TAPAS, расширении модели двунаправленного преобразователя BERT со специальными вложениями для поиска ответов в таблицах. Применение нашей новой цели предварительной подготовки к TAPAS позволяет получить самые современные данные для нескольких наборов данных, включающих таблицы. Например, на TabFact разрыв между производительностью модели и человека сокращается примерно на 50%. Мы также систематически сравнивали методы выбора релевантных входных данных для повышения эффективности, достижения 4-кратного увеличения скорости и памяти при сохранении 92% результатов. Все модели для разных задач и размеров доступны вОпубликовано в репозитории GitHub, где вы можете попробовать их сами в блокноте colab.
буквальное значение
Применительно к задачам, которые являются более сложными, чем простой текст табличных данных буквального следствия. Например, рассмотрим таблицу из Википедии с некоторыми предложениями, полученными из связанного с ней содержимого таблицы. Чтобы оценить, содержит ли содержимое таблицы предложения или противоречащие друг другу предложения, может потребоваться просмотр нескольких столбцов и строк и, возможно, выполнение простых числовых вычислений, таких как усреднение, суммирование, дифференцирование и т. д. \
Следуя подходу, используемому TAPAS, мы кодируем содержимое утверждения и таблицы вместе с помощью модели Transformer, чтобы получить единственное число для вероятности того, что утверждение содержится или опровергается таблицей. \
Поскольку единственная информация в обучающем примере представляет собой двоичное значение (т. при условии, что обучающий сигнал недостаточен. Видя отдельные примеры подразумеваемого или опровержения, модели могут легко улавливать ложные закономерности в данных, чтобы делать прогнозы, например, наличие слова «ничья» в «связи Грега Нормана и Билли Мэйфэра» вместо фактического сравнения их рангов, что требуется для успешного применения модели за пределами исходных обучающих данных.
Предтренировочные задачи
Задачу предобучения можно использовать для «разогрева» модели, снабдив ее большим объемом готовых неразмеченных данных. Однако предварительное обучение обычно состоит в основном из простого текста, а не из табличных данных. На самом деле, TAPAS изначально был предварительно обучен простой задаче моделирования маскированного языка, которая не была предназначена для приложений с табличными данными. Чтобы повысить производительность модели на табличных данных, мы вводим две новые задачи предварительной бинарной классификации, называемые Контрфактическая и Синтез, которые можно использовать в качестве второго этапа предварительной подготовки (часто называемой промежуточной предварительной подготовкой).
В контрфактической задаче мы получаем предложения из Википедии, в которых упоминается объект (человек, место или вещь), который также присутствует в данной таблице. Затем в 50% случаев мы изменяем оператор, заменяя сущность на другую альтернативу. Чтобы убедиться, что утверждение реалистично, мы выбираем замену в сущности в том же столбце таблицы. Модель обучена распознавать, было ли предложение изменено. Это предварительное задание включает в себя миллионы таких примеров, и хотя рассуждать о них несложно, они часто звучат естественно.
Для задач синтеза мы используем подход, аналогичный семантическому анализу, при котором мы генерируем предложения, используя простой набор грамматических правил, которые требуют, чтобы модель понимала основные математические операции, такие как суммы и средние значения (например, «сумма дохода») или Узнайте, как фильтровать элементы в таблице по определенным критериям (например, «Страна — Австралия»). Хотя эти утверждения искусственны, они помогают улучшить числовые и логические способности модели. \
результат
Мы сравниваем их с базовой моделью TAPAS и двумя предыдущими моделями, LogicalFactChecker (LFC) и Structure Aware Transformer (SAT), которые продемонстрировали успех в области текстовых следствий. Базовая модель TAPAS демонстрирует улучшенную производительность по сравнению с LFC и SAT, но предварительно обученная модель (TAPAS + CS) работает значительно лучше, достигая нового уровня техники.
Мы также применяем TAPAS + CS к задаче ответа на вопрос в наборе данных SQA, которая требует, чтобы модель находила ответы из табличного содержимого в настройках диалога. Включение цели CS улучшает предыдущую лучшую производительность более чем на 4 балла, показывая, что этот метод также может обобщать производительность за пределами простого текстового следствия. \
Данные и вычислительная эффективность
Другой аспект контрфактических и синтетических задач предварительного обучения заключается в том, что, поскольку модели уже настроены для бинарной классификации, их можно применять без какой-либо тонкой настройки TabFact. Мы исследуем, что происходит с каждой моделью при обучении только на подмножестве (или даже на отсутствии) данных. Не рассматривая ни одного примера, модель TAPAS+CS конкурирует с сильной базовой моделью Table-Bert с результатами, сравнимыми с предыдущим состоянием техники, когда включено только 10% данных. \
Общая проблема при работе с таблицами с такими большими моделями заключается в том, что их высокие вычислительные требования затрудняют анализ очень больших таблиц. Чтобы решить эту проблему, мы исследуем, можно ли эвристически выбрать подмножество входных данных для прохождения через модель, чтобы оптимизировать ее вычислительную эффективность.
Мы провели систематическое исследование различных способов фильтрации входных данных и обнаружили, что наилучшие результаты дает простой метод выбора полных столбцов и перекрытия слов между утверждениями темы. Динамически выбирая входные токены для включения, мы можем обрабатывать большие входные данные с меньшими ресурсами или с той же стоимостью. Задача состоит в том, чтобы сделать это без потери важной информации и без ущерба для точности.
Например, все рассмотренные выше модели используют последовательности из 512 токенов, что является нормальным пределом для моделей-трансформеров (хотя недавние методы повышения эффективности, такие как реформатор или перформер, доказали свою эффективность при масштабировании размера входных данных). Предлагаемый здесь метод выбора столбца может обеспечить более быстрое обучение, сохраняя при этом высокую точность на TabFact. Для 256 входных токенов падение точности очень мало, но теперь модель можно предварительно обучить, настроить и заставить прогнозировать в два раза быстрее. Используя 128 токенов, модель по-прежнему превосходит предыдущую современную модель и имеет более значительное ускорение — в 4 раза быстрее по всем направлениям. \
Используя предложенный нами метод выбора столбцов и новую задачу предварительного обучения, мы можем создавать модели синтаксического анализа таблиц, которые требуют меньше данных и меньшую вычислительную мощность для получения лучших результатов.
мы вв репозитории GitHubДоступны новые модели и методы предварительного обучения, которые вы можете опробовать в Colab. Чтобы упростить использование этого подхода, мы также делимся моделями различных размеров, вплоть до «мини». Мы надеемся, что эти результаты помогут развитию табличного мышления в более широком исследовательском сообществе.
Инструкции по обновлению: Приоритет отдается обновлению общедоступной учетной записи WeChat «Блог дождливой ночи», а блог будет обновлен позже, а затем будет распространен на различные платформы.Если вы хотите узнать больше заранее, обратите внимание на Публичный аккаунт WeChat «Блог дождливой ночи».
Источник блога:Блог Дождливой ночи