Резюме классификации изображений с несколькими метками «Глубокая концепция»

искусственный интеллект глубокое обучение

Перепечатано с:блог woo woo woo.cn on.com/and 0/afraid/1…

Введение

Традиционное контролируемое обучение в основном представляет собой обучение с одной меткой, в то время как целевые образцы в реальной жизни часто бывают сложными, с множественной семантикой и множеством меток.

Фотографии городов Нидерландов

(1) Традиционная однокомпонентная классификация

город (человек)

(2) Многоуровневая классификация

город, река, человек, европейский стиль

(3) Человеческое познание

Два человека идут по реке

Архитектура в европейском стиле, можно догадаться, что едут

Небо очень голубое, должно быть солнечно, но не очень солнечно

Для сравнения, классификация с одной меткой требует наименьшего количества информации, а человеческое познание получает больше всего информации, а классификация с несколькими метками находится между ними.

Описание проблемы:

X=Rd представляет d-мерное входное пространство, Y={y1,y2,...,yq} представляет пространство меток с q возможными метками

Обучающий набор D={(xi,yi)|1≤ i ≤ m}, m обозначает размер обучающего набора, а верхний индекс обозначает порядковый номер выборки

xi ∈ X, является d-мерным вектором. yi⊆Y, является подмножеством меток Y

Задача состоит в том, чтобы изучить классификатор h(x), который изучает набор с несколькими метками и предсказывает h(x)⊆Y как правильный набор меток для x.

Обычной практикой является изучение функции f(x,yj), которая измеряет корреляцию между x и y, в надежде, что f(x,yj1)>(x,yj2), где yj1∈y, yj2∉y.

Существующие наборы данных и показатели оценки

1. Существующие наборы данных

NUS-WIDE — это данные изображения, аннотированные веб-метками, содержащие 269 648 изображений с веб-сайтов с 5018 различными метками.

Из этих изображений извлекаются шесть низкоуровневых признаков, в том числе 64-мерная цветовая гистограмма, 144-мерная карта корреляции цветов, 73-мерная гистограмма ориентации краев, 128-мерная вейвлет-текстура, 225-мерный цветовой момент блока и 500-мерный набор цветов. слова на основе описания SIFT.

URL-адрес:Две разные вещи Comp Взгляд Квота Является ли /research/nu…

 

Набор данных MS-COCO включает 91 объект, 328 000 изображений и 2 500 000 этикеток.

Все экземпляры объектов аннотированы подробными масками сегментации, и в общей сложности аннотировано более 500 000 объектов объектов.

URL-адрес:cocodataset.org/

Набор данных PASCAL VOC Основная цель этой задачи — распознать объекты из нескольких классов визуальных объектов в реальных сценах. По сути, это проблема обучения с учителем, потому что предоставляется обучающий набор помеченных изображений. Были выбраны 20 классов объектов:
люди: люди
Животные: птицы, кошки, коровы, собаки, лошади, овцы.
Транспорт: самолеты, велосипеды, лодки, автобусы, автомобили, мотоциклы, поезда.
В помещении: бутылки, стулья, обеденный стол, растения в горшках, диван, телевизор/монитор.

Данные train/val содержат 11 530 изображений, содержащих 27 450 объектов с аннотациями ROI и 6 929 сегментов.

URL-адрес:host.robots.O.AC.UK/Pascal/VOC/…

 

Набор данных ML-Images с открытым исходным кодом Tencent AI Lab включает 18 миллионов обучающих изображений и более 11 000 общих категорий объектов.

2. Показатели оценки

Можно разделить на три категории

  • Метрики оценки на основе выборки (сначала рассмотрите производительность одного образца на всех этикетках, а затем усредните несколько образцов, которые обычно не используются)
  • Оценочные показатели всех образцов (непосредственно показатели всех меток на всех образцах)
  • Показатели оценки на основе меток (сначала рассмотрите эффективность одной метки на всех образцах, а затем усредните по нескольким меткам)

Показатели оценки для всех образцов

****Точность, полнота, F-значение (точность, полнота, естественное расширение F-значения при однокомпонентном обучении)

            

Niq: количество картинок с правильным предсказанием i-й метки, Nip: количество картинок, предсказанных i-й меткой, Nig: количество картинок с правильной i-й меткой,

 

 

Метрики оценки на основе меток

****Точность, полнота, F-значение (точность, полнота, естественное расширение F-значения при однокомпонентном обучении)

            

 

mAP (средняя средняя точность)

P: точность, расширение показателя точности (определяется порядком корреляции меток одного образца, который отличается от трех указанных выше показателей точности) |{yj2|rankf(xi,yj2)≤rankf(xi,yj1 ),yj2 ∈ X}|

AP: средняя точность, среднее значение каждой категории P значение

MAP: средняя средняя точность, принимая среднее значение AP всех категорий.

Среди них rankf(xi,yj) означает, что f(.,.) выполняет сортировку по убыванию для всех меток в Y), чтобы получить рейтинг, и, наконец, возвращает рейтинг метки yj в этом списке. более актуален малый.

 

 алгоритм обучения

1. Три стратегии (на основе отношений между метками)
Основная трудность обучения с несколькими метками заключается во взрывном росте выходного пространства.Например, если есть 20 меток, выходное пространство равно 2 ^ 20. Чтобы справиться с экспоненциальной сложностью пространства меток, необходимо выяснить корреляцию между метками. Например, изображение с пометкой «тропический лес» и «футбол» с высокой вероятностью будет иметь пометку «Бразилия». Документ помечен как развлекательный и с меньшей вероятностью будет иметь политическую значимость. Эффективное изучение корреляции между метками является ключом к успеху обучения с несколькими метками. По силе корреляционного анализа алгоритмы с несколькими метками можно разделить на три категории.

    • Стратегия первого порядка: игнорировать корреляцию с другими метками, например разложение нескольких меток на несколько независимых задач бинарной классификации (простая и эффективная).
    • Стратегия второго порядка: рассмотрите попарные ассоциации между ярлыками, такие как ранжирование релевантных и нерелевантных ярлыков.
    • Стратегия более высокого порядка: учитывайте связь между несколькими метками, например, учитывайте влияние всех других меток на каждую метку (эффект оптимален).

2. Два метода (на основе того, как объединить классификацию по нескольким меткам с текущими алгоритмами)

    • Преобразование алгоритмов адаптации данных: обычно используются, например, объединение нескольких категорий в одну категорию, что приведет к чрезмерному количеству категорий.
    • Алгоритм преобразования адаптирован к данным: он обычно используется для нормального вывода q-мерных данных, изменения регрессии softmax на сигмовидную функцию и, наконец, вывода результата, где f(.) больше порогового значения.

3. CNN с несколькими метками (VGG, ResNet101)

Это стандартная модель CNN, которая не учитывает никаких зависимостей меток и относится к стратегии первого порядка.Следующие являются стратегиями высокого порядка.

4. встраивание этикетки

Встраивание меток — это не вся сеть, а часть сети, которая обрабатывает связи между метками.

(a) (b)

            (a) one hot encoding                                                                                          (b)embedding

Нейросетевой анализ
Предполагая, что у нас есть только 4 слова, девочка, женщина, мальчик, мужчина, давайте подумаем о разнице между двумя разными выражениями.
One hot representation
Хотя мы знаем их отношение друг к другу, компьютер этого не знает. Во входном слое нейронной сети каждое слово рассматривается как узел. И мы знаем, что обучение нейронной сети заключается в изучении весов каждого соединения. Если вы посмотрите только на веса первого слоя, необходимо определить следующие случаи 4Отношения между тремя соединительными линиями, поскольку каждое измерение не зависит друг от друга, данные девушки не помогут обучению других слов, и количество данных, необходимых для обучения, в основном фиксировано там.

Здесь мы вручную находим отношение f между этими четырьмя словами. Четыре слова могут быть представлены двумя узлами. Значение каждого узла, принимающего разные значения, заключается в следующем. Тогда девушка может быть закодирована как вектор [0,1], а мужчина может быть закодирован как [1,1] (первое измерение — это пол, а второе измерение — это возраст).  

                   

Затем посмотрите на вес линии соединения, которую должна обучить нейросеть, и он уменьшается до 23. В то же время при кормлении девушки в качестве входных обучающих данных, поскольку она кодируется двумя узлами. Затем могут быть обучены и другие входные примеры, которые имеют ту же связь с девочкой (например, обучение женщины, которая разделяет женщину, и обучение мальчика ребенка).

В общем, встраивание меток предназначено для достижения результатов, представляемых второй нейронной сетью, и уменьшения объема данных, необходимых для обучения.
Встраивание меток заключается в автоматическом изучении отображения f из входного пространства в пространство распределенного представления из данных.

 

5. CNN+RNN (CNN-LSTM)

Сетевая структура в основном разделена на две части: cnn и rnn.cnn отвечает за извлечение семантической информации в изображении, а rnn отвечает за установление отношения изображение/метка и модель зависимости метки.

                     сетевая модель

Кроме того, при идентификации разных объектов RNN будет переносить внимание на разные места, как показано на следующем рисунке:

 

В этой статье есть две категории, "зебра" и "слон". При прогнозировании зебры мы обнаружили, что сеть сосредоточила свое внимание на зебре.

Это политика более высокого порядка, которая учитывает зависимости меток на глобальном уровне.

6. РЛСД

На основе CNN-RNN RLSD добавляет региональные скрытые семантические зависимости и дополнительно оптимизирует алгоритм с учетом корреляции между информацией о местоположении изображения и метками.

                  нейронная сеть РЛСД

6. СОЗ

Основная идея HCP состоит в том, чтобы сначала извлечь области-кандидаты (в основном сотни) на изображении, затем классифицировать каждую область-кандидата и, наконец, использовать максимальное объединение кросс-гипотез для объединения результатов классификации всех областей-кандидатов на изображении. получается мультикатегорийная метка всего изображения, а также используется механизм внимания, как показано на следующем рисунке:

Механизм внимания: как автомобиль, человек, лошадь, вес тяжелый, а внимание относительно высокое. Преимущество этого заключается в том, что нам не нужно добавлять информацию о местоположении при обучении изображений.Вычисление будет обрамлять множество блоков и автоматически регулировать веса кадров соответствующих меток, чтобы они были больше, чтобы уменьшить шум.

 

Суммировать

1. Текущие проблемы

В настоящее время все еще существуют проблемы классификации с одной меткой и обнаружения целей в классификации с несколькими метками, такие как окклюзия и распознавание небольших объектов.

Кроме того, из-за относительно большого количества меток возможность классификации экспоненциально возрастает с категорией, а ранг и распределение выборки неравномерны.

2. Области применения

Поиск изображений, семантическая аннотация изображений и видео

2. Направление исследований и разработок

В целом, классификация с несколькими метками требует больше информации об изображениях и метках, поскольку она включает в себя несколько меток, а это означает, что возможности классификации увеличиваются в геометрической прогрессии.

Чтобы уменьшить возможность такой классификации, необходимо учитывать взаимосвязь между этикетками и этикетками, а также между этикетками и картинками для уменьшения объема информации.

    • Первый предполагает отношения между тегами и тегами, то есть отношения между словами и словами в НЛП, находящиеся на семантическом уровне.
    • Второй включает в себя связь между меткой и изображением, которая является связью между меткой и функциями изображения, и обычно используется механизм внимания.