Авторы: Пиюш Шарма, инженер-программист Google AI, и Раду Сорикут, исследователь
Источник | Публичный аккаунт разработчика Google
В сети есть миллиарды изображений, которые помогают развлечь массы и показать миру множество тем. Однако большая часть этой визуальной информации недоступна людям с нарушениями зрения или неспособным загружать изображения из-за низкой скорости интернета. Авторы веб-сайтов вручную подписывают изображения с помощью альтернативного текста HTML, чтобы сделать контент более доступным, а затем мы можем использовать систему преобразования текста в речь, чтобы представить описание изображения на естественном языке. Однако лишь небольшой процент веб-изображений добавляет существующие HTML-поля альтернативного текста, созданные людьми. Более того, хотя автоматическое создание субтитров к изображениям помогает решить эту проблему, точное создание субтитров к изображениям по-прежнему остается сложной задачей, требующей совершенствования современных технологий компьютерного зрения и обработки естественного языка.
Примечание. HTML-ссылки с альтернативным текстом
Я 3schools.com/tags/ATT_IM…
Ссылка на систему преобразования текста в речь
Любовь.Google blog.com/2017/12/ Он из…
Ссылка для автоматической подписи к изображению
Любовь. Google blog.com/2014/11/ ах - ужас...
Сегодня мы представляем Conceptual Captions, новый набор данных примерно из 3,3 миллиона пар изображений и подписей; мы создаем его путем автоматического извлечения и фильтрации аннотаций подписей к изображениям из миллиардов веб-страниц. Представленное в документе, опубликованном на ACL 2018, «концептуальные субтитры» представляют собой увеличение на порядок изображений с субтитрами в наборе данных MS-COCO, созданном человеком. Подписи к концепциям, созданные с помощью машин, точны примерно на 90 процентов по оценке людей. Кроме того, поскольку изображения в концептуальных подписях извлекаются из сети, стили подписей к изображениям более разнообразны, чем в предыдущих наборах данных, что позволяет нам лучше обучать модели подписей к изображениям. Чтобы отслеживать прогресс создания субтитров к изображениям, мы также опубликуем задание по созданию субтитров для участников сообщества машинного обучения, чтобы они могли обучать и оценивать свои модели создания субтитров на тестовом стенде для создания субтитров.
Примечание: ссылка на статью
ACL Web.org/anthology/P…
Ссылка на набор данных MS-COCO
cocodataset.org/#home
По часовой стрелке сверху слева изображения от Jonny Hunter, SigNote Cloud, Tony Hisgett и ResoluteSupportMedia. Все изображения используются под лицензией CC BY 2.0.
Создать набор данных
Чтобы сгенерировать набор данных концептуальных субтитров, мы сначала получаем изображения из Интернета с HTML-атрибутом Alt-text. Мы автоматически отфильтровываем изображения с определенными атрибутами, чтобы обеспечить качество изображения, избегая при этом нежелательного контента, такого как изображения для взрослых. Затем мы используем фильтрацию на основе текста, чтобы удалить субтитры с неописательным текстом (таким как хэштеги, плохая грамматика или добавленный язык, не относящийся к изображению); мы также удаляем субтитры с высокой эмоциональной полярностью или контентом для взрослых (дополнительную информацию см. в нашей статье). подробности о критериях фильтрации). Мы используем существующие модели классификации изображений, чтобы гарантировать, что любое данное изображение имеет некоторое совпадение между его альтернативным текстом (с учетом перегибов) и меткой, выводимой классификатором изображений для этого изображения.
Примечание: ссылка на нашу статью
ACL Web.org/anthology/P…
Ссылка на модель классификации изображений
cloud.google.com/vision/
Ссылка на перегиб
Woohoo.ACL Web.org/anthology/N…
От конкретных названий к общим понятиям
Хотя подписи-кандидаты, которые проходят вышеуказанную фильтрацию, как правило, являются хорошими описаниями изображений с альтернативным текстом, в большинстве из них используются имена собственные (например, человек, место, местоположение, организация и т. д.). Это создает некоторые проблемы, поскольку моделям подписей к изображениям сложно научиться такому тонкому выводу имен собственных из пикселей входного изображения и одновременно генерировать описания на естественном языке1.
Чтобы решить вышеуказанную проблему, мы написали программное обеспечение. Программное обеспечение может автоматически заменять имена собственные словами, которые выражают ту же общую концепцию, концепцию, которая их использует. В некоторых случаях мы убираем имена собственные, чтобы упростить текст. Например, мы заменяем имена людей (например, «Бывшая Мисс Мира Приянка Чопра на красной дорожке» на «Актеры на красной дорожке»), удаляем названия мест (заменяем «толпа на концерте в Лос-Анджелесе» на «Концерт», толпа на », см. иллюстрацию ниже).
значок изменения текстаИзображение от Rockoleando, используется под лицензией CC BY 2.0.
Наконец, мы объединяем все проанализированные объекты (например, «художник», «собака», «рядом» и т. д.) и оставляем только те типы-кандидаты, которые упоминаются более 100 раз, что достаточно для поддержки обучения представлению для этих объектов. В результате мы сохранили около 16 000 понятий сущностей, таких как: «человек», «актер», «художник», «игрок» и «иллюстрация». Менее упоминаемые понятия, которые мы сохраняем, включают «багет», «поводья», «крайний срок», «отдел» и «воронка».
В конечном счете, нам нужно около 1 миллиарда (англоязычных) веб-страниц с более чем 5 миллиардами изображений-кандидатов, чтобы получить краткий набор данных о подписях к изображениям для обучения с более чем 3 миллионами образцов (коэффициент отсева 99,94%). Хотя мы можем настроить параметры управления, чтобы генерировать больше примеров на порядок с меньшей точностью, наши параметры смещены в сторону высокой точности.
Влияние набора данных
Чтобы проверить полезность набора данных, мы используем набор данных MS-COCO (используя 120 000 изображений с 5 подписями, аннотированными людьми на каждом изображении) и новый набор данных концептуальных подписей (используя более 3,3 миллиона изображений с 1 подписью к изображению), обученный Модели подписей к изображениям на основе RNN и Transformer соответственно. Подробнее об архитектуре модели см. в нашей статье.
Примечание: ссылка RNN https://en.wikipedia.org/wiki/Recurrent_neural_network
Ссылка трансформатора
Любовь. Google blog.com/2017/08/suddenly...
Мы протестировали эти модели с использованием изображений из набора данных Flickr30K (которые не входят в объем наборов данных MS-COCO и Conceptual Captioning) и назначили 3 человека-оценщика для каждого тестового примера для оценки полученных подписей. Результаты оценки представлены в таблице ниже. Примечание: ссылка Flickr30K http://web.engr.illinois.edu/~bplumme2/Flickr30kEntities/
Из этих результатов мы делаем вывод, что независимо от архитектуры (например, RNN или Transformer) модели, обученные с помощью заголовков понятий, лучше формируют общие понятия, чем модели, обученные с помощью конкурирующих методов. Кроме того, мы обнаружили, что модели Transformer превосходят модели RNN независимо от того, какой набор данных использовался для обучения. Основываясь на этих выводах, мы пришли к выводу, что концептуальные субтитры позволяют нам обучать модели субтитров, которые лучше работают на самых разных изображениях.
активно участвовать
Мы надеемся, что этот набор данных поможет сообществу машинного обучения улучшить современные модели подписей к изображениям. Важно отметить, что этот набор данных хорошо масштабируется, поскольку при его создании люди не участвовали в предоставлении аннотаций. Мы могли бы расширить этот набор данных, чтобы автоматически создавать описания, подобные Alt-text-HTML, для более широкого спектра изображений. Мы призываем все заинтересованные стороны принять участие в конкурсе Concept Caption Challenge и с нетерпением ждем результатов, которых может достичь сообщество! Для получения более подробной информации и последних результатов посетите веб-сайт конкурса.
Примечание. Ссылка на вызов концептуальной подписи
Love.Google.com/research/co…
Спасибо
Спасибо Nan Ding, Sebastian Goodman и Bo Pang за обучение модели с использованием набора данных Conceptual Captioning, а также Amol Wankhede за их усилия по организации публичного выпуска этого набора данных.
В статье мы выдвигаем гипотезу о том, что если имена собственные, такие как имя, местонахождение и торговая марка, должны автоматически определяться по изображениям, это нужно делать как отдельную задачу, возможно, используя метаинформацию изображения (такую как информация GPS) или дополняя ее. технологии, такие как OCR.
Примечание: ссылка для распознавания текста
En. Wikipedia.org/wiki/optic A…