Сборник | Фэйци
Произведено | Базовый лагерь технологий искусственного интеллекта (публичный идентификатор: rgznai100)
[Введение] Недавно лаборатория технического зрения Стэнфордского университета под руководством Ли Фейфэя опубликовала статью «Ссылающиеся отношения», которая будет представлена на CVPR 2018. Основная исследовательская задача этой статьи состоит в том, чтобы дать сеть отношений объектов на изображении, чтобы ИИ мог быстро найти объект, соответствующий субъекту, или субъект, соответствующий объекту.
БытьБыть
Следующее содержание взято из документа Referring Relationships, переведенного из AI Technology Base Camp:
Изображения — это не просто наборы объектов, каждое изображение представляет собой сеть взаимосвязанных отношений. Отношения между сущностями имеют семантическое значение и помогают наблюдателю различать экземпляры сущности. Например, на изображении футбольного матча может присутствовать несколько человек, но каждый участвует в разных отношениях: один бьет по мячу, а другой является вратарем.
В этой статье мы формулируем задачу использования этих «референтных отношений» для устранения неоднозначности между сущностями одного и того же класса. Мы вводим итеративную модель, которая находит две сущности в референтных отношениях и ограничивает друг друга. Мы создаем условия цикла между сущностями в отношениях, моделируя предикаты, которые соединяют сущности и переключают внимание с одной сущности на другую.
Мы демонстрируем, что наша модель не только превосходит существующие методы, реализованные на трех наборах данных — CLEVR, VRD и Visual Genome, — но также производит визуально значимые преобразования предикатов, которые можно использовать в качестве интерпретируемого нейронного экземпляра сети. Наконец, мы показываем, что моделирование предикатов как переходов внимания позволяет нам локализовать объекты даже без их категорий, позволяя модели находить совершенно невидимые категории.
▌Справочная задача
Референтные выражения могут помочь нам идентифицировать и находить объекты в повседневном общении. Например, мы можем указать на «кикера», чтобы отличить «вратаря» (рис. 1). В обоих этих примерах мы можем различить их на основе их отношения к другим объектам. Когда один стреляет, другой удерживает цель. Конечная цель состоит в том, чтобы построить вычислительные модели для идентификации объектов, на которые ссылаются другие.
БытьРисунок 1: Ссылочные отношения устраняют неоднозначность между экземплярами одного и того же класса, используя относительные отношения между сущностями. Учитывая эту связь, задача требует, чтобы наша модель правильно определяла кикер на изображении, понимая предикат.
Структурированные реляционные входные данные для задачи реляционных отношений позволяют нам оценить, как однозначно идентифицировать объекты одного и того же класса на изображении. Мы оцениваем нашу модель 2 на трех наборах визуальных данных, содержащих визуальные отношения: CLEVR, VRD и Visual Genome. 33 %, 60,3 % и 61 % отношений в этих наборах данных относятся к неоднозначным сущностям, то есть сущностям с несколькими экземплярами одного и того же класса. Мы расширяем модель, чтобы выполнять саккады внимания, используя отношения графа сцены. Наконец, мы демонстрируем, что в отсутствие субъектов или объектов наша модель все еще может устранять неоднозначность между сущностями, а также локализовать новые категории, которые никогда раньше не встречались.
▌Эталонная модель отношения
Наша цель — использовать входные референтные отношения для устранения неоднозначности сущностей в изображениях путем определения референтных сущностей. Формально на вход подается образ I с референциальным отношением R = , которые являются субъектом, сказуемым и категорией объекта соответственно. Ожидается, что эта модель будет определять местонахождение предметов и объектов.
▌Дизайн модели
Мы разрабатываем итеративную модель, чтобы узнать, как использовать предикаты в визуальных отношениях для управления переключением внимания, вдохновленные теорией движущегося прожектора в психологии. Учитывая первоначальную оценку футбола, он узнает, где должен быть игрок. Точно так же, если человека оценивать, он научится определять положение мяча. Путем итерации между этими оценками наша модель может сосредоточиться на правильных экземплярах и исключить другие.
БытьБыть
Рисунок 2. Вывод референциальных отношений начинается с извлечения признаков изображения, которые являются основой для создания субъектов и объектов. Затем эти оценки можно использовать для переключения внимания с помощью предикатов с субъекта на местоположение желаемого объекта. Уточняя новые оценки объектов, мы изменяем характеристики изображения, сосредотачиваясь на переходных областях. При этом изучается обратный переход от исходного объекта к субъекту. Путем итеративной передачи сообщений между субъектом и объектом через два модуля прогнозирующего сдвига эти два объекта могут быть окончательно обнаружены.
▌эксперимент
Мы проводим эксперименты, оценивая производительность модели по референциальным отношениям в трех наборах данных, каждый из которых предоставляет уникальный набор функций, дополняющих наши эксперименты. Далее мы оцениваем, как можно улучшить модель при отсутствии одной из сущностей во входном референтном отношении. Наконец, эксперимент завершается демонстрацией того, как модель может быть модульной и использоваться для саккад внимания графа сцены.
Ниже приведены результаты нашей оценки CLEVR, VRD и Visual Genome. Мы обозначаем средние расхождения IoU и KL для локализации темы и объекта соответственно:
Результаты ссылочной связи для отсутствующих сущностей при трех условиях тестирования:
Рис. 3: (а) По отношению к субъекту на изображении при использовании отношения для поиска объекта предикат слева переключает внимание вправо. И наоборот, когда объект используется для нахождения подлежащего, обратный предикат слева переключает внимание налево. Во вспомогательном материале мы визуализируем предикатные и обратные предикатные преобразования для 70 VRD, 6 CLEVR и 70 Visual Genome (б) Мы также видим, что эти преобразования интуитивно понятны при взгляде на наборы данных, используемые для их понимания.
БытьБыть
Рисунок 4: Это пример того, как внимание переключается между несколькими итерациями для наборов данных CLEVR и Visual Genome. На первой итерации модель получает только информацию об объекте, который пытается найти и пытается найти все экземпляры в этих категориях. В более поздних итерациях мы видим, что предикат переключает внимание, что позволяет нашей модели устранять неоднозначность между различными экземплярами одного и того же класса.
БытьБыть
Рисунок 5: Мы можем разложить нашу модель на модули внимания и перевода и сложить их в виде узлов графа сцены. Здесь мы демонстрируем, как использовать модель, чтобы начать с узла (мобильного телефона) и использовать референтные отношения для соединения узлов через граф сцены и определения местоположения сущностей во фразе . Второй пример относится к сущности в .
▌в заключении
Мы представляем цель ссылочных отношений, где наша модель использует визуальные отношения для устранения неоднозначности между экземплярами одного и того же класса. Наша модель учится итеративно использовать предикат как переход внимания между двумя объектами в отношении. Он обновляет свою позиционную информацию о субъекте и объекте, предсказывая предыдущее положение субъекта и объекта соответственно. Мы показываем улучшения в наборах данных CLEVR, VRD и Visual Genome, демонстрируя, что наша модель производит интерпретируемые переходы предикатов, что позволяет нам убедиться, что модель действительно учится отвлекать внимание. Мы даже показываем, как нашу модель можно использовать для локализации совершенно невидимых категорий, полагаясь на частичные референциальные отношения, и как расширить ее на граф сцены, чтобы выполнять внимательные взгляды. Улучшения в референциальных отношениях могут проложить путь алгоритмам зрения для обнаружения невидимых объектов и научиться улучшать их понимание визуального мира.
Авторы: Ранджай Кришна, Инес Чами, Майкл Бернштейн, Ли Фей-Фей
Оригинальная ссылка:
https://cs.stanford.edu/people/ranjaykrishna/referringrelationships/index.html