Это седьмой день моего участия в ноябрьском испытании обновлений, подробности о мероприятии:Вызов последнего обновления 2021 г.
В последнее время я читаю литературу, в основном в направлении вопрос-ответ, и в дальнейшем остановлюсь на этом аспекте. Просто используйте таблицу записей блога.
Relation-aware Bidirectional Path Reasoning for Commonsense Question Answering
Ответы на вопросы, основанные на здравом смысле, — важная задача в области НЛП, и ее главная цель — предсказать правильный ответ цели посредством рассуждений на основе здравого смысла. В предыдущих исследованиях использовались предварительно обученные модели, такие как BERT, для крупномасштабных корпусов или попытки вывода на графах знаний.
Однако эти методы явно не моделируют отношения между связанными сущностями, которые, тем не менее, являются информативными вещами, которые можно использовать для улучшения рассуждений.
Чтобы решить эту проблему, мы предлагаем метод вывода с учетом отношений.
Наш подход представляет собой нейронную сеть графа с учетом отношений для сбора богатой контекстной информации между сущностями и отношениями. По сравнению с методом встраивания фиксированного отношения в предварительно обученной модели наша модель использует контекстную информацию в подграфе с несколькими источниками, построенном из нескольких внешних источников знаний, для динамического обновления отношения. Возвращайте производительность отношений подкрепления в двунаправленную модель вывода. Использование механизма двунаправленного внимания между путями последовательностей вопросов и реляционными сущностями дает нам прозрачную интерпретируемость (что дает нам прозрачную интерпретируемость).
Экспериментальные результаты набора данных CommonsenseQA показывают, что наш метод значительно улучшает базовый уровень, обеспечивая при этом четкий путь вывода.
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering
Представлен VQA-MHUG: мультимодальный набор данных из 49 участников был собран с использованием высокоскоростного устройства отслеживания глаз, которое записывает изображения и вопросы, на которые люди смотрят во время визуальных ответов на вопросы (VQA).
Мы проанализировали пять современных моделей VQA, используя наш набор данных:
- Модульная сеть совместного внимания (MCAN) с функциями сетки или региона (2)
- Pythia
- Bilinear Attention Network (BAN),
- the Multimodal Factorized Bilinear Pooling Network (MFB)
В то время как предыдущая работа в основном была сосредоточена на модальностях изображений, наш анализ впервые показывает, что для всех моделей высокая корреляция текста с человеческим вниманием является важным предиктором производительности VQA. Этот вывод указывает на возможность повышения производительности VQA, призывая к дальнейшим исследованиям механизмов внимания к нейронному тексту и их интеграции в архитектуры для зрительных и языковых задач, включая, но потенциально помимо VQA.