Для получения дополнительных галантерейных товаров, пожалуйста, обратите внимание на публичный аккаунт WeChat «AI Frontline» (ID: ai-front)
В последние годы последние достижения в исследованиях понимания естественного языка на основе нейронных сетей, особенно в изучении семантических представлений текста, могут позволить создать действительно новые продукты, такие как автоматическое письмо, «Разговор с книгами» и т. д. Это также может помочь повысить производительность при выполнении различных задач на естественном языке с ограниченным объемом обучающих данных, таких как создание мощного классификатора текста всего с 100 помеченными образцами.
В этой статье мы обсудим две статьи о последних достижениях в исследованиях семантического представления в Google, а также две новые модели, доступные для загрузки на TensorFlow Hub, которые, как мы надеемся, разработчики смогут использовать для создания новых интересных приложений.
В статье «Изучение семантического текстового сходства из разговоров» мы представляем новый метод изучения представлений предложений для семантического текстового сходства. Интуиция подсказывает, что предложения должны быть семантически похожими, если они имеют одинаковое распределение ответов. Например, «Сколько вам лет?» и «Каков ваш возраст?» — это вопросы, связанные с возрастом, на которые можно ответить одинаковыми ответами, такими как «Мне 20 лет». Напротив, хотя «Как дела?» и «Сколько тебе лет?» содержат почти одни и те же слова, они имеют очень разные значения и получают разные ответы.
Предложения семантически похожи, если на них можно ответить одним и тем же ответом. В противном случае они семантически различны. В этой работе мы стремимся изучить семантическое сходство с помощью задачи адаптивной классификации: учитывая входные данные сеанса, мы хотим назначить случайный выбор правильных ответов из случайно выбранной группы ответов. Но конечной целью является изучение модели, которая может возвращать коды, представляющие различные отношения естественного языка, включая сходство и родство. Добавляя еще одну задачу прогнозирования (в данном случае набор данных SNLIentailment) и применяя ее путем совместного использования уровня кодирования, мы достигаем более высокой производительности по показателям подобия, таким как STSBenchmark (контрольный показатель сходства предложений) и задача CQA B (оценка проблемы/проблемы). -подобная задача). Это связано с тем, что логическое рассуждение сильно отличается от простой эквивалентности, которая дает больше вдохновения для изучения сложных семантических представлений.
Для данного входа классификация считается проблемой ранжирования для потенциальных кандидатов.
В «Универсальном кодировщике предложений» мы представляем модель, которая расширяет многозадачное обучение, описанное выше, добавляя больше задач, и совместно обучается с моделью, подобной пропуску мыслей, которая может предсказывать предложения в заданном текстовом диапазоне. Однако вместо использования архитектуры кодер-декодер в исходной модели с пропуском мыслей мы используем архитектуру только кодировщика для управления задачей прогнозирования путем совместного использования кодировщика. Таким образом, время обучения значительно сокращается при сохранении производительности при выполнении различных задач переноса, включая классификацию тональности и семантического сходства. Цель состоит в том, чтобы предоставить единый кодировщик, который может поддерживать максимально широкий спектр приложений, включая обнаружение парафраз, корреляцию, кластеризацию и пользовательскую классификацию текста.
Путем попарного сравнения семантического подобия на выходе универсального кодировщика предложений TensorFlow Hub. Как описано в нашей статье, версия модели Universal Sentence Encoder использует кодировщик глубокой средней сети (DAN, https://www.cs.umd.edu/~miyyer/pubs/2015_acl_dan.pdf), а вторая версия использует более сложная сетевая архитектура с самостоятельным участием: Transformer (https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html).
Многозадачное обучение, разработанное в «Универсальных кодировщиках предложений». Различные задачи и структуры задач связаны общими слоями/параметрами кодировщика (серые прямоугольники на рисунке). В более сложных архитектурах модель работает лучше, чем простая модель DAN, в различных задачах классификации тональности и сходства, в то время как для коротких предложений она лишь немного медленнее. Однако с увеличением длины предложения время расчета модели с использованием Transformer значительно увеличивается, в то время как время расчета модели DAN остается практически одинаковым.
В дополнение к модели Universal Sentence Encoder, описанной выше, мы также публикуем две новые модели на TensorFlow Hub: Universal Sentence Encoder Large (https://www.tensorflow.org/hub/modules/google/universal-sentence-encoder-large/). 1) и Universal Sentence Encoder Lite (https://www.tensorflow.org/hub/modules/google/universal-sentence-encoder-lite/1). Оба они являются предварительно обученными моделями TensorFlow, которые возвращают семантическое кодирование текстовых входов переменной длины. Эти кодировки могут использоваться для измерения семантического подобия, родства, классификации или кластеризации текстов на естественном языке.
Большая модель обучается с помощью кодировщика Transformer, упомянутого в нашей второй статье, и ориентирована на сценарии, требующие высокоточного семантического представления и наилучшей производительности модели за счет скорости и размера. Модель Lite обучается с использованием словаря предложений, а не слов, чтобы значительно уменьшить размер словаря, а размер модели в основном определяется размером словаря. Эта модель нацелена на сценарии, в которых ресурсы, такие как память и ЦП, ограничены, например, реализации на основе устройств или браузеров. Мы рады поделиться этим исследованием и этими моделями с сообществом. Мы считаем, что то, что мы описали в этой статье, — это только начало, и необходимо решить важные исследовательские вопросы, такие как распространение метода на большее количество языков (обсуждаемые выше модели в настоящее время поддерживают только английский язык). Мы также хотим развивать эту технологию дальше, чтобы она могла понимать текст на уровне абзаца и даже документа. Только когда эти задачи могут быть решены, можно надеяться на кодировщики общего назначения.
Оригинальная ссылка:
https://ai.googleblog.com/2018/05/advances-in-semantic-textual-similarity.html