Предисловие:
В глубоком обучении и компьютерном зрении предпринимаются усилия по извлечению признаков для вывода значимых представлений для различных задач зрения. В некоторых задачах мы ориентируемся только на геометрию объекта, вне зависимости от цвета, фактуры, освещения и т.д. Здесь вступает в действие обнаружение границ.
Обратите внимание и обновляйте две статьи о компьютерном зрении каждый день
определение проблемы
Рисунок 1 Обнаружение границ
На рис. 1 показан пример обнаружения границ, который, как следует из названия, представляет собой задачу обнаружения границ объектов на изображении. Это некорректный вопрос, потому что сама постановка вопроса неоднозначна. Как показано, для изображения комнаты в помещении (слева) наземная правда (посередине) определяет границы объекта наземной истины в комнате, а предсказание (справа) оценивает границы объекта в комнате. Однако мы видим, что оценочные границы намного больше, чем наземные, и включают в себя ненужные граничные линии из планировок комнат, штор и даже текстур диванов. Извлечение четких и осмысленных границ объектов — непростая задача.
оригинальный метод
Прямое решение проблемы обнаружения границ состоит в том, чтобы рассматривать ее как проблему семантической сегментации. Просто пометив границы как 1, а другие области как 0 в аннотации, мы можем сформулировать это как проблему семантической сегментации бинарной классификации с бинарной кросс-энтропийной потерей в качестве функции потерь. Однако у этого есть две причины: крайне несбалансированное распределение меток и врожденная проблема перекрестной энтропийной потери для каждого пикселя.
Ограничения перекрестной потери энтропии
При использовании кросс-энтропийных потерь статистическое распределение меток играет важную роль в точности обучения. Чем несбалансированнее распределение меток, тем сложнее его обучать. Хотя взвешенная кросс-энтропийная потеря может облегчить эту трудность, улучшение не является значительным, и неотъемлемые проблемы кросс-энтропийной потери не решены. При кросс-энтропийных потерях потери рассчитываются как средние потери на пиксель, а потери на пиксель рассчитываются как дискретные значения, не зная, являются ли его соседние пиксели границами. Следовательно, потеря кросс-энтропии учитывает только потерю в микросмысле, а не глобальную, чего недостаточно для прогнозирования уровня изображения.
фигура 2 Граничный прогноз с потерей перекрестной энтропии
как показано на рисунке 2. Для входного изображения (слева) сравниваются предсказания кросс-энтропийной потери (в центре) и взвешенной кросс-энтропийной потери (справа). Правая граница намного лучше средней, но предсказанная граница не чистая, граница текстуры грязной травы все еще присутствует.
Dice Loss
Проигрыш в кости возник из коэффициента Серенсена-Дайса, статистики, использовавшейся в 1940-х годах для измерения сходства между двумя выборками. Он был доведен до компьютерного зрения Миллером Тари и др. 2016 для сегментации 3D медицинских изображений.
изображение 3 Коэффициент кости
Вышеупомянутое уравнение показывает уравнение коэффициента кости, где pi и gi представляют соответствующее предсказанное значение пикселя и истинное значение, соответственно. В сцене обнаружения границы значение pi и gi равно 0 или 1, что указывает на то, является ли пиксель границей, если да, то значение равно 1, в противном случае значение равно 0. Следовательно, знаменатель представляет собой сумму предсказанных и наземных истинных полных граничных пикселей, а значение представляет собой сумму правильно предсказанных граничных пикселей, поскольку значения pi и gi увеличиваются только в том случае, если они совпадают (два значения 1).
Рисунок 4 Коэффициенты игры в кости (вид настроек)
Фиг.4 представляет собой другой вид фиг.3. С точки зрения теории множеств, где коэффициент игры в кости (DSC) является мерой перекрытия между двумя множествами. Например, если два набора A и B полностью перекрываются, максимальное значение DSC равно 1. В противном случае DSC начинает уменьшаться, и минимальное значение равно 0, если две группы вообще не перекрываются. Поэтому диапазон DSC находится между 0 и 1, чем больше, тем лучше. Следовательно, мы можем использовать 1-DSC в качестве проигрыша в костях, чтобы максимизировать перекрытие между двумя группами.
В задаче обнаружения границ наземные граничные пиксели и предсказанные граничные пиксели можно рассматривать как два набора. Используя Dice Loss, две группы приучаются постепенно пересекаться. Как показано на рисунке 4. Знаменатель учитывает общее количество граничных пикселей в глобальном масштабе, а числовое значение учитывает перекрытие между двумя наборами в локальном масштабе. Поэтому Dice Loss учитывает информацию о потерях как локально, так и глобально, что имеет решающее значение для высокой точности.
результат
Рисунок 5 Результаты граничного прогноза
Как показано на рисунке 5. Результаты прогнозирования с использованием Dice Loss (столбец c) имеют более высокую точность, чем другие методы (столбцы d, e). Особенно для тонких границ, поскольку Dice Loss можно уменьшить только тогда, когда предсказанные пиксели границы перекрываются с тонкой границей истинной земли, а в других областях нет предсказанных пикселей границы.
Справочные документы
V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation, Milletari et al., 3DV 2016
Learning to Predict Crisp Boundaries, Deng et al., ECCV 2018
Оригинальная ссылка:
Эта статья взята из серии публикаций в Техническом руководстве CV для общедоступных аккаунтов.
Добро пожаловать в техническое руководство CV для общедоступной учетной записи, в котором основное внимание уделяется техническому обзору компьютерного зрения, отслеживанию новейших технологий и интерпретации классических статей.
Ответьте на ключевое слово «Техническое резюме» в официальном аккаунте, чтобы получить резюме следующих статей в формате pdf.
Другие статьи
Четкое обнаружение границ с использованием Dice loss
PVT — многофункциональная основа для плотного прогнозирования без свертки
CVPR2021 | Обнаружение объектов в открытом мире
Визуальное обнаружение и распознавание объектов Прошлое, настоящее и возможное
Краткое изложение методов недообучения и переобучения
Краткое изложение общих идей бумажных инноваций
Резюме методов эффективного чтения англоязычной литературы по направлению CV
Обзор непродолжительного обучения компьютерному зрению
Краткий обзор дистилляции знаний
Оптимизировать скорость чтения видео OpenCV
Краткое изложение методов функции потерь
Техническое резюме механизма внимания
Краткое изложение технологии пирамиды функций
Краткое изложение технологии объединения
Краткое изложение методов увеличения данных
Резюме эволюции структуры CNN (1) Классическая модель
Резюме эволюции структуры CNN (2) Облегченная модель
Резюме эволюции структуры CNN (3) Принципы проектирования
Как увидеть будущее направление компьютерного зрения
Краткое изложение технологии визуализации CNN (1) Визуализация карты объектов
Краткое описание технологии визуализации CNN (2) Визуализация ядра свертки
Краткое изложение технологии визуализации CNN (три) визуализации
Краткое описание технологии визуализации CNN (4) инструменты и проекты визуализации