Представляем NIMA: оценка нейровизуализации

Google машинное обучение Нейронные сети
Представляем NIMA: оценка нейровизуализации
Автор: инженер-программист Хоссейн Талеби, исследователь машинного восприятия Пейман Миланфар

Количественная оценка качества и эстетики изображения была давней проблемой в области обработки изображений и компьютерного зрения. Техническая оценка качества измеряет искажения изображения на уровне пикселей, такие как шум, размытие и артефакты сжатия, в то время как эстетическая оценка направлена ​​на то, чтобы зафиксировать эмоциональные и эстетические особенности изображений на семантическом уровне. Совсем недавно глубокое обучение с использованием помеченных человеком данныхСверточная нейронная сеть(CNN) использовался для решения специальных изображений (например, пейзажей).субъективность качества изображения. Однако, поскольку эти методы обычно просто классифицируют изображения на категории низкого и высокого качества, их применимость узка. Предлагаемый нами метод прогнозирует выпуск рейтингов. Это приводит к более точным прогнозам качества изображения, которые ближе к истинной оценке и более применимы к обычным изображениям.

существует"NIMA:Neural Image Assessment«В этой статье мы вводим глубину CNN, обученная определять, какие изображения средний пользователь найдет красивыми (технические) и какие изображения привлекательными (эстетические). Воспользуйтесь преимуществами ультрасовременной глубиныраспознавание объектовБлагодаря успеху сети NIMA может понимать общий класс объектов, независимо от того, сколько существует вариаций. Предлагаемая нами сеть может не только давать изображениям достоверную оценку, близкую к уровню человеческого восприятия, но также может использоваться для различных трудоемких и субъективных задач, таких как интеллектуальное редактирование фотографий, оптимизация визуального качества для взаимодействия с пользователем или в Минимизируйте предполагаемые визуальные ошибки в канале изображения.


задний план
Вообще говоря, оценку качества изображения можно разделить на два метода: полный эталон и безэталонный. Если есть «идеальное» изображение, которое можно использовать в качестве эталона, вы можете использоватьPSNR,SSIMи другие показатели качества изображения. «Слепые» (или без эталонных) методы основаны на статистических моделях для прогнозирования качества изображения, когда эталонные изображения недоступны. Основная цель обоих методов — предсказать показатель качества, который очень близок к человеческому восприятию. глубина использования Когда CNN выполняет оценку качества изображения, веса передаются в наборах данных, связанных с классификацией объектов (например,ImageNet) инициализируются путем обучения, а затем настраиваются на аннотированных данных для задачи оценки качества восприятия.

NIMA
Типичные методы прогнозирования эстетики классифицируют изображения только как низкокачественные/высококачественные. При этом игнорируется тот факт, что каждое изображение в обучающих данных связано с гистограммой человеческих оценок, а не с простой бинарной оценкой. Гистограмма баллов является индикатором общего качества изображения и представляет собой среднее значение всех участников. В нашем методе НИМА Вместо того, чтобы просто классифицировать изображения на низкое/высокое качество или регрессировать для получения среднего балла, модель генерирует распределение баллов для любого заданного изображения — баллы варьируются от 1 до 10, а NIMA присваивает вероятность каждому возможному значению балла. Это также больше соответствует тому, как обычно собираются обучающие данные, и наш метод лучше предсказывает предпочтения человека по сравнению с другими методами (более подробную информацию см.бумага).

Затем фотографии можно ранжировать по эстетике, используя различные функции векторной оценки NIMA, такие как среднее значение. Ниже показано Рейтинг NIMA некоторых тестовых фотографий из эстетического визуального анализа (AVA) крупномасштабная база данных наборов данных. существуетКонкурс фотографии, каждое фото AVA оценивают в среднем 200 человек. После тренировки рейтинг эстетики этих фотографий, составленный NIMA, был очень близок к среднему баллу человека. Мы обнаружили, что NIMA одинаково хорошо работает с другими наборами данных, при этом прогнозируемые показатели качества приближаются к человеческим оценкам.
Использование пар NIMAAVAНекоторые фотографии с пометкой «пейзаж» в наборе данных ранжированы. Прогнозируемые (и истинные) оценки NIMA показаны под каждым изображением.
Оценки NIMA также можно использовать для сравнения качества изображений одного и того же объекта, подвергшихся различным деформациям. Изображение, показанное в примере ниже,TID2013Часть тестового набора, содержащая различные типы и уровни деформации.
Использование пар NIMATID2013Некоторые примеры в наборе данных ранжированы. Прогнозируемые баллы NIMA показаны под каждым изображением.
Перцептивное улучшение изображения
Как мы сделали в другой недавней статьебумагаКак упоминалось в , оценки качества и эстетики также можно использовать для настройки операторов перцепционного улучшения изображения. Другими словами, максимально возможное увеличение оценки NIMA как части функции потерь увеличивает вероятность улучшения воспринимаемого качества изображения. В приведенном ниже примере показано, что NIMA можно использовать в качестве потери при обучении для настройки алгоритма улучшения оттенка. Мы обнаружили, что базовые оценки эстетики могут быть улучшены путем корректировки контраста в соответствии с оценками NIMA. В результате наша модель может управлять глубокими фильтрами CNN, чтобы найти настройки, параметры которых близки к оптимальным уровням с точки зрения эстетики, такие как яркость, блики и тени.

NIMA можно использовать в качестве потери при обучении для увеличения изображений. В этом примере, обучая глубокую CNN и используя NIMA в качестве ее потери, усиливается локальный тон и контрастность изображения. тестовое изображение изНабор данных MIT-Adobe FiveKПолучать.
Глядя в будущее
Наша исследовательская работа NIMA предполагает, что модели оценки качества на основе машинного обучения могут иметь много полезных возможностей. Например, мы можем упростить пользователям поиск лучших фотографий и даже улучшить возможности фотосъемки, предоставляя пользователям обратную связь в режиме реального времени. При постобработке эти модели можно использовать для того, чтобы направлять операторов дополнений для получения лучших результатов восприятия. Проще говоря, сеть NIMA и другие подобные сети могут удовлетворить человеческую эстетику для изображений и даже видео, хотя это и не идеально, но относительно осуществимо. Мы рады поделиться этими результатами, но мы также знаем, что лучшее понимание того, что означают качество и эстетика, будет долгосрочной задачей, требующей постоянного итеративного обучения и тестирования наших моделей.