RxR: многоязычный эталон для отслеживания навигационных инструкций

глубокое обучение
RxR: многоязычный эталон для отслеживания навигационных инструкций

Видео введение:RxR: многоязычный эталон для отслеживания навигационных инструкций

Основной задачей машинного обучения (ML) является создание агентов, способных ориентироваться в сложных человеческих средах в ответ на устные или письменные команды. Хотя сегодняшние агенты, в том числе роботы, часто могут ориентироваться в сложных средах, они еще не способны понимать выражения на естественном языке для целей навигации, например: «Раньше G o был как бы закрыт справа от вас коричневой двустворчатой ​​дверью и стоял в кресле. во главе. Задний стол.
Эта задача, известная как визуальная и лингвистическая навигация (VLN), требует сложного понимания пространственного языка. Например, для определения позиции «за стулом в голове стола» нужно найти стол, определить часть стола, которая считается «головой», найти стул рядом с головой, определить область спинки стула и т. д. Хотя люди могут легко следовать этим инструкциям, эти проблемы не могут быть легко решены с помощью современных подходов, основанных на машинном обучении, требующих систем, которые могут лучше связать язык с физическим миром, который он описывает.
Чтобы способствовать прогрессу в этой области, мы рады представить Room-Across-Room (RxR), новый набор данных для VLN. RxR, описанный в книге «Комнаты через комнаты: многоязычное зрение и лингвистическая навигация с плотной пространственно-временной базой», представляет собой первый многоязычный набор данных для VLN, содержащий 126 069 аннотированных человеком навигационных инструкций на трех разных языках — английском, хинди и телугу. Каждая инструкция описывает путь через фотореалистичный симулятор для заполнения внутренней среды из набора данных Matterport3D, который включает в себя 3D-снимки домов, офисов и общественных зданий. Чтобы отслеживать прогресс VLN, мы также объявили о конкурсе RxR Challenge, который побуждает сообщество машинного обучения тренировать и оценивать свои собственные инструкции по инструкциям RxR.
Язык инструкции по эксплуатации
en-US Начните рядом с длинным обеденным столом и поверните так, чтобы стол оказался справа от вас. Идите к двойным стеклянным дверям. Когда доберетесь до коврика перед дверью, сразу поверните налево и спуститесь по лестнице. Когда вы дойдете до нижней части лестницы, пройдите через открытую дверь слева и продолжайте идти через художественную выставку, ванна находится справа от вас. Спускайтесь вдоль стола, пока не дойдете до маленьких ступеней в конце комнаты, затем до ванны и остановитесь.
High Input Теперь у нас есть большой стол слева с несколькими стульями и несколькими лампами над столом. Поверните в противоположном направлении и идите прямо. Теперь у нас справа круглый стол, идем прямо оттуда, впереди закрытая стеклянная дверь, а потом слева лестница, спускающаяся сверху. После спуска с холма поверните направо, войдите в коричневую дверь и идите прямо. Теперь у нас справа большой стол с двумя стульями и идем вперед. Перед нами кран, три стула у передней стены, слева здесь.
Входные данные Если вы вернетесь прямо с того места, где вы были, перед вами будет стол. Если вы пройдете через нее и повернете налево, вы найдете лестницу впереди. Опусти их полностью. Теперь перед вами будут две открытые двери. Выходите в дверь слева и идите прямо. Справа от вас будет длинный стол. Пройдите через него к парадной лестнице и подождите.
Примеры навигационных инструкций на английском, хинди и телугу из набора данных RxR. Каждая навигационная инструкция описывает один и тот же путь.
Отслеживание позы
В дополнение к инструкциям и путям навигации RxR включает новую, более подробную мультимодальную аннотацию под названием «Отслеживание позы». Вдохновленные траекториями мыши, захваченными в наборе данных Localized Narratives, траектории поз обеспечивают плотную основу между языком, зрением и движением в богатой трехмерной обстановке. Чтобы сгенерировать инструкции по навигации, мы попросили аннотатора вести аннотатора по пути в симуляторе, рассказывая путь на основе окружающей среды. След позы записывает все, что гид видит на пути, выравнивая по времени с текстом в инструкциях по навигации. Затем эти траектории были объединены с траекториями позы от сопровождающих комментаторов, которым было поручено проверить качество навигационных инструкций, слушая аудио гида, чтобы следовать ожидаемому пути. Траектории поз неявно отражают концепции выбора ориентира и визуальной значимости и представляют собой отчет о том, как решать задачу генерации навигационных инструкций (для гидов) и задачу следования навигационным инструкциям (для последователей). \

\


масштаб
В целом, RxR содержит почти 10 миллионов слов, что примерно в 10 раз больше, чем существующие наборы данных, такие как R2R и Touchdown/Retouchdown.Это важно, потому что по сравнению с задачами, основанными на статических изображениях и текстовых данных, языковые задачи, которые требуют обучения посредством движения или взаимодействия с окружающей средой часто не хватает крупномасштабных обучающих данных. RxR также устраняет известные искажения в построении пути, наблюдаемые в других наборах данных, таких как R2R, где все пути имеют одинаковую длину и проходят по кратчайшему пути к цели. Напротив, пути в RxR в среднем длиннее и менее предсказуемы, что усложняет их следование и побуждает модели, обученные на наборе данных, уделять больше внимания роли языка в задаче. Масштаб, охват и детализация RxR расширят границы исследований в области изучения языков, одновременно снизив доминирование таких ресурсоемких языков, как английский. \


исходный уровень
Чтобы лучше охарактеризовать и понять набор данных RxR, мы обучили различных агентов RxR, используя нашу платформу с открытым исходным кодом VALAN и языковые представления из многоязычной модели BERT. Мы обнаружили, что результаты можно улучшить, включив аннотации последователей и направляющих во время обучения, и что независимо обученные одноязычные агенты превосходят одиночных многоязычных агентов.
Концептуально оценка этих агентов проста — следует ли агент ожидаемому пути? Эмпирически мы измеряем сходство между путями, выбранными агентом VLN, и эталонным путем, используя NDTW, стандартизированную меру точности пути, которая находится в диапазоне от 100 (идеальное соответствие) до 0 (совершенно неправильно). Из-за естественных различий между похожими путями средний балл фолловеров-аннотаторов на всех трех языках составил 79,5. Напротив, лучшая модель (состоящая из трех независимо обученных одноязычных агентов, по одному для каждого языка) имеет оценку NDTW 41,5 на наборе тестов RxR. Хотя это намного лучше, чем случайный выбор (15.4), он все же намного ниже возможностей человека. В то время как достижения в языковом моделировании продолжают быстро сокращать возможности для улучшения в тестах понимания языка простого текста, таких как GLUE и SuperGLUE, тесты, такие как RxR, которые связывают язык с физическим миром, предлагают значительные возможности для улучшения. \


соревнование
Чтобы стимулировать дальнейшие исследования в этой области, мы запускаем RxR Challenge, постоянное соревнование для сообщества машинного обучения по разработке вычислительных агентов, которые могут следовать инструкциям навигации на естественном языке. Для участия участники загружают пути навигации, которые использовали их агенты, в соответствии с предоставленными инструкциями по тестированию RxR. В самых сложных средах (упомянутых здесь и в статье) все тестовые среды ранее не встречались. Однако мы также позволяем агенту предварительно обучать или исследовать настройки в тестовой среде.
PanGEA
Мы также выпустили специальный веб-инструмент для аннотаций, который мы разработали для сбора наборов данных RxR. Набор инструментов для аннотации среды Panorama (PanGEA) — это облегченная и настраиваемая кодовая база для сбора голосовых и текстовых аннотаций в средах Panorama, таких как Matterport3D и StreetLearn. Он включает в себя запись голоса и виртуальное отслеживание поз, а также инструменты для согласования полученного отслеживания поз с расшифровкой вручную.

Инструкции по обновлению: Приоритет отдается обновлению общедоступной учетной записи WeChat «Блог дождливой ночи», а блог будет обновлен позже, а затем будет распространен на различные платформы.Если вы хотите узнать больше заранее, обратите внимание на Публичный аккаунт WeChat «Блог дождливой ночи».

Источник блога:Блог Дождливой ночи