Умная аннотация — интерактивная аннотация

искусственный интеллект
Умная аннотация — интерактивная аннотация

активное изучение

Представьте процесс маркировки данных как взаимодействие между алгоритмом обучения и пользователем. Среди них алгоритм отвечает за выбор образцов, которые являются более ценными для обучения модели ИИ, и пользователь помечает эти выбранные образцы.
Это,Получите образцы данных, которые сложнее классифицировать с помощью методов машинного обучения., пусть руководство подтвердит и снова просмотрит, а затем использует модель обучения с учителем или полуучителем, чтобы снова обучить размеченные вручную данные, постепенно улучшить эффект модели и интегрировать искусственный опыт в модель машинного обучения.
Взяв в качестве примера проблему классификации изображений, сначала вручную выберите и пометьте часть данных изображения, обучите исходную модель, а затем используйте обученную модель для прогнозирования остальных неразмеченных данных, а затем выберите модель через " метод запроса» в «активном обучении», которое трудно различить. Категорируйте данные, а затем искусственно исправляйте метки этих «сложных» данных и добавляйте их в обучающий набор для повторной тонкой настройки обучающей модели.«Метод запросов» является одним из основных элементов активного обучения., наиболее распространенными «методами запроса» являются стратегия выборочного запроса на основе неопределенности и стратегия выборочного запроса на основе разнообразия.

                           1.png

метод запроса

  • Запросы для выборки по неопределенности
  • Запросы на основе комитетов
  • Запрос на основе ожиданий изменения модели
  • Запрос на основе уменьшения ошибок
  • Запросы, основанные на уменьшении дисперсии
  • Запрос на основе веса плотности

Запросы для выборки по неопределенности

самое низкое доверие: Рассмотрим выборочные данные, где модель предсказывает самую высокую вероятность, но низкую надежность. Достоверность (0,9, 0,1) больше, чем (0,51, 0,49).

image.png

краевая выборка: выберите выборку с наименьшей разницей вероятностей между самой большой и второй по величине, предсказанной моделью. В задаче бинарной классификации это эквивалентно самому низкому доверительному уровню.

image.png

энтропия: Выберите вариант с наименьшей энтропией.

image.png

Запросы на основе комитетов

Рассмотрите сценарий нескольких моделей и выберите те выборочные данные, которые труднее различить в режиме голосования нескольких моделей.

Суммировать

В области активного обучения ключ заключается в том, как выбрать подходящий набор кандидатов аннотации для ручного аннотирования, а методом выбора является стратегия запроса. Стратегия запроса может быть основана на одной модели машинного обучения или на нескольких моделях машинного обучения, которые можно определить в соответствии с фактическим использованием.

Интерактивная аннотация сцен в семантической сегментации

1. Глубокий интерактивный выбор объекта

Это статья из CVPR 2016. В этой статье предлагается метод интерактивной сегментации 2D-изображений с использованием сверточных нейронных сетей (CNN).
процесс работы: Как показано на рисунке ниже, пользователь рисует несколько точек, зеленые точки — это передний план (целевой объект), а красные точки — фон (фон).Эти точки преобразуются в изображение расстояния на основе точек переднего плана и изображение расстояния на основе фоновых точек. Исходное изображение представляет собой изображение трех каналов RGB, плюс эти два дистанционных изображения, всего пять каналов, изображение этих пяти каналов используется как пара (изображение, взаимодействие с пользователем) в качестве входных данных полностью сверточной сети (FCN). ), чтобы получить результат сегментации. Таким образом, в процессе сегментации пользователю нужно указать только несколько точек, чтобы провести сегментацию FCN.

Карта вероятностей может быть получена на выходе FCN, и на основе карты вероятностей используется разрез графа для ее модификации, чтобы сделать результат сегментации ближе к краю на изображении. На рисунке ниже показан пример сегментации, где (а) — входное изображение и заданные пользователем точки переднего плана и фона, (б) — карта вероятностей, полученная с помощью FCN, и (в) — результат оптимизации разреза графа.

В этом документе используется предварительно обученная модель FCN, настроенная на набор данных сегментации изображений PASCAL VOC 2012. Точки переднего плана и фона получаются путем имитации взаимодействия с пользователем во время обучения, при этом пользователь фактически не отмечает эти точки на тренировочном наборе. Во время теста пользователь может постоянно увеличивать количество точек в соответствии с потребностями, чтобы редактировать результаты сегментации. На рисунке ниже показан пример, когда пользователь указывает 1–3 балла для сегментации. Первая строка — это результат сегментации пороговой обработки карты вероятностей, а вторая строка — результат коррекции карты вероятностей с помощью разрезания графика.

2, Interactive medical image segmentation using deep learning with image-specific fine-tuning

Это статья, опубликованная в TMI в этом году, этот метод также называется BIFSeg, BIFSeg изучает CNN из определенного изображения для достижения сегментации.

решенная проблема:

  • CNN в прошлом плохо обобщались на классы объектов, которых не было в наборе данных, и имели медленное время отклика.

Инновации:

  • Путем тонкой настройки CNN, чтобы сделать ее более адаптивной к данным.
  • Объекты, отсутствующие в обучающих данных, могут быть сегментированы.

процесс работы:
В процессе обучения пользователь сначала рисует ограничивающую рамку, а область внутри ограничивающей рамки используется в качестве входных данных CNN для обучения бинарной сегментации.В этом учебном процессе можно получить некоторые знания о заметности, контрасте и других функциях, которые могут применяться к объектам, которые никогда не появлялись.
На этапе тестирования CNN настраивается (нарисовывается) на изображении, чтобы CNN лучше соответствовала конкретному тестовому изображению.
Затем процесс обучения эквивалентен обучению BIFSeg извлечению объектов из ограничивающей рамки, а точная настройка позволяет CNN лучше использовать информацию в конкретном изображении во время тестирования.

Процесс тонкой настройки использует взвешенную функцию потерь при обновлении параметров CNN, игнорируя те пиксели, которые имеют тенденцию к неточной сегментации, и используя только аннотированные пользователем пиксели с высокой надежностью для оптимизации CNN.

1.png

Как показано на рисунке выше, вес пикселей с высокой неопределенностью равен 0 (черный), граффити — ω (белый), а остальные — 1 (серый).

Обычно методы сегментации на основе CNN могут иметь дело только с объектами, появившимися в обучающей выборке, что ограничивает гибкость этих методов. BIFSeg пытается использовать CNN для сегментации объектов, которые не были замечены во время обучения. Учебный набор включает в себя плаценту и головной мозг плода, а тестовый набор включает легкие плода и почки беременных женщин в дополнение к этим двум органам.

3, DeepIGeoS: A deep interactive geodesic framework for medical image segmentation

DeepIGeoS - это статья, опубликованная на TPAMI. В отличие от Deep Interactive Object Selection, который требует от пользователей предоставления точек взаимодействия с самого начала, DeepIGeoS позволяет пользователям обеспечивать взаимодействие только в неправильной области сегментации результата автоматической сегментации, поэтому он может сохранить больше деньги, время и эффективность.

решенная проблема:

  • Взаимодействия в прошлом были громоздкими, а время отклика было медленным.

Инновации:

  • Требуется меньше взаимодействия с пользователем, и для исправления требуется лишь небольшое количество каракулей в неправильной области.
  • Более быстрое время отклика. Больше нет необходимости переобучать все модели после каждого взаимодействия с пользователем, а нужно применять предварительное обучение + имитацию процесса взаимодействия с пользователем.

DeepIGeoSпредставляет собой двухступенчатую структуру, используя две CNN, как показано. На этапе 1, который представляет собой проблему автоматической сегментации, требующую быстрого вывода, первая CNN (называемая P-Net) получает результат автоматической сегментации, пользователь проверяет начальную сегментацию и дает некоторые взаимодействия (щелчки и короткие каракули), чтобы представить Mis. -сегментированные регионы, этап 2, вторая CNN (R-Net) принимает исходное изображение, первоначальную сегментацию и взаимодействие с пользователем в качестве входных данных для уточнения сегментации.

Поправки, сделанные пользователем, преобразуются в изображение расстояния как часть ввода второй CNN, которая представляет собой геодезическое расстояние (которое может использовать контекстную информацию о расстоянии изображения по сравнению с евклидовым расстоянием).
Как показано на рисунке ниже, зеленая кривая на (а) — это начальный результат сегментации, красная точка — это точка переднего плана, отмеченная пользователем при ее исправлении, голубая — точка фона, отмеченная пользователем, (г) и (e) - два взаимодействия соответственно. Соответствующее изображение геодезического расстояния. Использование геодезического расстояния может лучше отражать границы и контекстную информацию в изображении, чем евклидово расстояние. Исходное изображение, исходный результат сегментации, удаленное изображение точки взаимодействия на переднем плане и удаленное изображение точки взаимодействия на заднем плане объединяются для получения четырехканального изображения, которое используется в качестве входных данных второй CNN (R- Сеть).

тренироваться:
DeepIGeoS обучает R-Net, моделируя точки взаимодействия во время обучения.
Сначала предварительно обучите P-Net, затем используйте P-Net для сегментации изображения обучающих данных, получите y' и y после сегментации, чтобы найти неправильно сегментированную область, затем отметьте неправильную область, выберите несколько точек, используйте для обучения R -Сеть.

На следующем рисунке показано смоделированное взаимодействие пользователя с первоначальными результатами сегментации, полученными P-Net:

В этой статье проводятся эксперименты с 2D-изображениями МРТ плода и 3D-изображениями опухоли головного мозга соответственно.Результаты показывают, что по сравнению с традиционными интерактивными методами сегментации, такими как Graph Cuts, Random Walks и ITK-Snap, DeepIGeoS значительно снижает потребность во взаимодействии с пользователем. сокращается пользовательское время, которое составляет около 8 с и 60 с при интерактивной сегментации 2D-изображений плаценты и 3D-изображений опухоли головного мозга соответственно.

4, Guide Me: Interacting with Deep Networks

Взаимодействие с пользователем, рассматриваемое в приведенных выше статьях, представляет собой первоначальную разметку или вновь добавленную разметку, заданную пользователем на изображении, в то время как в статье Guide Me делается попытка рассмотреть другой метод взаимодействия: обновление результата сегментации изображения в соответствии с введенным пользователем текстом. .

Принципиальная схема метода выглядит следующим образом: используемую СНС можно рассматривать как состоящую из двух частей: кодировщика и декодера.Есть карта признаков промежуточного слоя между головкой и хвостом.Во время сегментации взаимодействие пользователя используется дляВнесите изменения в эту карту объектов, тем самым изменяя выход сети. (без изменения сети CNN)

Изменения карты объектов достигаются с помощью некоторых направляющих параметров, включая некоторые коэффициенты умножения и смещения:

[公式]

здесь [公式]представляет c-й канал карты объектов,[公式] и [公式]- коэффициент умножения и коэффициент смещения соответственно. Количество параметров можно минимизировать, определив два параметра для каждого канала карты объектов. Но это игнорирует пространственную информацию, поэтому вы также можете определить такие параметры в разных пространственных местоположениях:

[公式]

в [公式] и [公式]- коэффициенты для каждой строки и столбца соответственно. Для карты признаков с высотой H, шириной W и числом каналов C всего имеется коэффициент умножения H+W+C, поэтому количество направляющих параметров обычно невелико.

Когда пользователь добавляет интерактивную обратную связь к результату сегментации, параметры сети не обновляются, а обновляется только значение направляющего параметризатора для получения нового результата сегментации. Итак, как обновить параметр направляющей?

В статье предложены два метода.

  • Один из способов заключается в том, что система сегментации активно спрашивает пользователя, является ли определенная область небом, и пользователь отвечает да или нет. По ответу пользователя область задается соответствующей категорией, а затем путем обратного распространения получается локальное оптимальное значение параметра направляющей.

1.png

  • Другой метод заключается в том, что пользователь напрямую дает текстовую обратную связь, например, «небо не видно на этом изображении», преобразует текстовую информацию во встраивание через RNN, а затем линейно сопоставляет ее с несколькими направляющими параметрами, такими как α, β и γ. . Во время обучения нам также необходимоИмитация пользовательского ввода, чтобы сеть могла обрабатывать текстовую информацию, предоставленную пользователем во время теста.

Процесс имитации пользовательского ввода показан на рисунке выше.Сравнивая первоначальный результат сегментации со стандартом, можно найти неправильно сегментированные области, а затем сгенерировать текстовую информацию в соответствии с этими неправильно сегментированными частями в качестве моделируемого пользовательского ввода.

В наборе данных Pascal VOC 2012 в этой статье используется первое взаимодействие, чтобы задать пользователю 20 вопросов через систему, что увеличивает сегментацию mIOU с 62,6% до 81,0%. В эксперименте по второму интерактивному методу использовался набор данных COCO-stuff.Благодаря интерактивной коррекции MIOU сегментации был увеличен с 30,5% до 36,5%, тогда как MIOU, полученный DeepLab на этом наборе данных, составил 30,8%.

5, PolygonRNN

PolygonRNN — это метод, предложенный для маркировки краев объектов на двумерных изображениях. Процесс показан на следующем рисунке. Пользователь предоставляет ограничивающую рамку интересующего объекта. Метод использует RNN для прогнозирования ряда объектов на край ограничивающей рамки.Вершины, многоугольная область, состоящая из этих вершин, используется как результат сегментации объекта.

Эти вершины предсказываются в определенном порядке, например, по часовой стрелке. Предполагая, что есть T вершин, сначала используйте CNN для предсказания первой вершины, затемt-я вершина объединяет первую вершину с t-1-й и t-2-й вершинами и предсказанием обрезки изображения через RNN., модель RNN показана на следующем рисунке (с использованием сети VGG в качестве сети извлечения признаков):

Предсказание вершин реализовано как задача классификации.Бумага делит изображение на сетки 28x28, а затем классифицирует, принадлежит ли каждая сетка вершине или нет. В тестовом изображении пользователь может пересмотреть результат прогнозирования t-й вершины, а последующие вершины будут перепрогнозированы для получения обновленного результата сегментации.

По мере увеличения количества вершин, редактируемых пользователем, увеличивается и точность результатов сегментации. По сравнению с рисованием вручную вершин объектов для маркировки эффективность этого метода повышается примерно в 5 раз. Из-за низкого разрешения изображений вершин (28x28) точность сегментации этого метода имеет определенные ограничения.