Резюме:Янн Лекун однажды сравнил обучение без присмотра с тортом, а обучение под наблюдением — с глазурью на торте, заявив, что мы знаем только, как приготовить глазурь, но не знаем, как приготовить торт. В этом посте мы предлагаем рецепт «торта» для обучения алгоритма обучения без учителя для улучшения спутниковых изображений.
Ниже приводится перевод:
Yann LecunОбучение без учителя сравнивают с тортом, а обучение с учителем — с глазурью на торте, утверждая, что мы знаем только, как сделать глазурь, но не знаем, как приготовить торт. В этом посте мы предлагаем рецепт «торта» для обучения алгоритма обучения без учителя для улучшения спутниковых изображений.
Это исследование связано с растущей доступностью недорогих спутниковых изображений в зарождающейся коммерческой аэрокосмической отрасли. В этой развивающейся отрасли существует компромисс между качеством зондирования, частотой повторных посещений и стоимостью. Мы изучаем особенности расширенной обработки изображений, чтобы уменьшить этот компромисс и улучшить изображения, возвращаемые датчиками низкого качества, по той же цене.
Мы встраиваем детали изображений с высоким разрешением в глубокую нейронную сеть (DNN) и извлекаем эти детали при дополнении географически похожих изображений. В рамках этого исследования мы разрабатываем новую архитектуру для глубоких нейронных сетей, вводя слои возмущения, подходящие для задач улучшения изображения.
технология сверхвысокого разрешения
Существует множество способов улучшения изображений, таких как шумоподавление и регулировка цвета. Для спутниковых изображений расстояние дискретизации поверхности (GSD) является общепринятой мерой качества изображения, которая представляет фактическое физическое расстояние, представленное одним пикселем на изображении. Улучшение изображения, упомянутое в этой статье, относится к уменьшению (оптимизации) наземного расстояния на спутниковых изображениях, то есть к методам сверхвысокого разрешения. Технология сверхвысокого разрешения улучшает разрешение изображения за счет синтеза субпиксельной информации изображения. Общие синтетические методы включают:
Интерполяция между соседними пикселями изображения
Интерполяция между соседними кадрами изображения
Фильтрация в частотной области для уменьшения шума
В этом исследовании мы расширяем описанный выше подход, применяя методы глубокого обучения при обработке георелевантных изображений.
Чтобы количественно оценить эффект метода улучшения, мы сравниваем улучшение изображения до и после.Пиковое отношение сигнал/шум(ПСНР). Кроме того, для последующего анализа мы также показываем географическое распределение и корреляцию пиковых отношений сигнал/шум на изображениях.
PSNR — неизбежный выбор для измерения генерирующей способности алгоритмов сверхвысокого разрешения. Мы опубликуем статью в будущем, используяГенеративно-состязательные сетиИзучение лучшей функции стоимости для методов сверхвысокого разрешения.
Полностью сверточные нейронные сети с возмущенными слоями
Прежде чем непосредственно представить результаты, мы обсудим структуру, разработанную для выполнения конвейера обработки сверхвысокого разрешения. Стандартные глубокие нейронные сети, такие какAlexNet,ResNet,VGGиGoogLeNet, которые являются платформами для классификации изображений и обнаружения целей на изображениях с низким разрешением и неприменимы в сценариях изображений со сверхвысоким разрешением, где выходное пространство достигает экспоненциального размера.
Учитывая, что методы сверхвысокого разрешения, по сути, представляют собой возмущение изображений с низким разрешением, мы подверженыResNetВдохновленный , решил разработать новую глубокую нейронную сеть, состоящую из последовательностей возмущений картирования идентичности. Эта сеть расширяет свою структуру, оптимизируя выпуклую комбинацию предыдущего и текущего слоев, расширяя только один слой за раз и создавая обучаемые параметры (параметры обхода), которые измеряют вклад нового слоя в конечный результат.
Эта структура имеет следующие преимущества:
Эта сетевая архитектура хорошо подходит для обучения очень глубоких нейронных сетей с пропуском соединений и случайной глубиной в соответствии с современными стратегиями обучения.
Параметры обхода оценивают вклад каждого уровня, давая обратную связь о том, насколько глубокой должна быть сеть.
Каждый слой выполняет приблизительное преобразование идентичности, чтобы улучшить изображение с помощью различных структур.
Каждый слой возмущений содержит как минимум два сверточных слоя, и каждый сверточный слой также содержит нелинейный слой ReLU. Больше сверточных слоев в слое возмущений улучшают способность слоя возмущений улучшать изображение, но при обучении также становится труднее сходиться. Кроме того, дополнительные слои возмущения имеют аналогичный потенциал улучшения изображения без проблем со сходимостью.
Параметры обхода обеспечивают прямую обратную связь по влиянию каждого слоя возмущения. Эта обратная связь помогает ответить на вопрос, насколько глубокой должна быть нейронная сеть.
эксперимент
В наших предварительных экспериментах использовались ухудшенные изображения GeoTIFF 3-полосного канала Панамского канала, чтобы оценить возможности улучшения изображения глубоких нейронных сетей путем улучшения ухудшенных изображений. В наших экспериментах мы использовали два изображения в формате GeoTIFF (очень большие спутниковые изображения), предоставленные DigitalGlobe: одно для обучения и одно для тестирования. При вычислении глубокой нейронной сети мы не решили улучшать все изображение, вместо этого мы улучшали область изображения размером 27x27 пикселей за раз. Поскольку изображения в формате GeoTIFF очень большие, метод выделения областей размером 27x27 пикселей может предоставить достаточно обучающих данных для нашей глубокой нейронной сети. Больше обучающих изображений может улучшить экспериментальные результаты. Но в следующем эксперименте мы обучаем глубокую нейронную сеть, используя эти два изображения GeoTIFF:
Размер двух изображений GeoTIFF был изменен, чтобы эффективно уменьшить разрешение изображения.
Используя случайную выборку, образцы получаются из первого изображения GeoTIFF, и обучается глубокая нейронная сеть, причем для каждого обучения обучается только один слой в модели. Мы тренируем веса в глубокой нейронной сети, чтобы максимизировать значение PSNR на выходе глубокой нейронной сети.
Глубокая нейронная сеть, используемая для улучшения двух ухудшенных изображений GeoTIFF
Экспериментальные результаты будут сравниваться с алгоритмами улучшения изображения на основе интерполяции.
У нас есть видеокарта 4x Titan X, выпущенная в 2015 году.NVIDIA DevboxНа машине TensorFlow используется для создания, обучения и вывода глубоких нейронных сетей, но в реальном обучении для обучения используется только 1 видеокарта. Для обучения нейронной сети используем алгоритм оптимизацииADAM, ADAM связывает параметры, которые могут повлиять на время обучения и скорость сходимости. Мы не исследовали полностью оптимальный выбор параметров ADAM, но все равно потребовалось около 12 часов (с использованием видеокарты Titan X) для обучения каждого слоя возмущения. Скорость сходимости параметров обхода (как показано на рисунке 5) помогает нам выбрать параметры ADAM и даже последующее время обучения.
Результаты экспериментов
В этом эксперименте мы использовали два изображения Панамского канала в формате GeoTIFF, одно для обучения, а другое для тестирования.
Во-первых, это создание обучающих данных с изображениями GeoTIFF пониженной версии. Изменяя размер изображения в формате GeoTIFF, получающееся в результате ухудшенное изображение обеспечивает эффективное уменьшение GSD и разрешения. Используя линейную интерполяцию в качестве отправной точки, мы можем построить график распределения PSNR по всему ухудшенному изображению.
На рисунке 7 показано, что одного числа, представляющего PSNR, недостаточно для описания шума на спутниковых изображениях. На ухудшенных изображениях области с большей структурой, такие как лодки, имеют более низкие значения PSNR, чем сами области с меньшей структурой, такие как вода. Когда мы обучаем алгоритм сверхвысокого разрешения для улучшения ухудшенных изображений, мы хотим улучшить интересующие нас области, которые обычно являются областями, содержащими структуру.
Результаты на рис. 10 показывают, что метод аугментации на основе глубокой нейронной сети может значительно улучшить области с большей структурой. Хотя тестовые изображения имеют такое же GSD, что и обучающие изображения, различные атмосферные условия и облачный покров также влияют на эффект улучшения, что частично объясняет, почему оптимизация производительности тестовых изображений выше, чем у обучающих изображений. Четкость изображения также влияет на маркировку в местах с лодками, а неточная маркировка может содержать больше воды, что снижает рентабельность в этой области. Эксперименты, позволяющие избежать этих помех, выходят за рамки этой статьи.
Другие направления исследований
включаютSRCNNВ некоторых из включенных примеров методы сверхвысокого разрешения применялись к неспутниковым снимкам и достигали аналогичных улучшений при обучении в ImageNet. Эти методы могут быть применимы для улучшения спутниковых изображений, но предлагаемый нами метод имеет фундаментальное преимущество: информация о местоположении изображения. Кроме того, предлагаемый нами метод отличается от существующих методов по следующим пунктам:
Спутниковые снимки часто являются крайним случаем многих приложений алгоритмов машинного обучения на основе глубоких нейронных сетей.
Переобучение не обязательно плохо для нашего алгоритма, мы можем получить более разнообразные наборы данных изображений.
Слой возмущений предоставляет информацию о требуемой глубине глубокой нейронной сети и ожидаемом предельном улучшении производительности при увеличении глубины сети.
В дополнение к красному, зеленому и синему, изображения GeoTIFF могут содержать больше цветовых каналов, для дополнительных цветовых каналов (например, 8-канальных изображений) можно использовать наш метод с простыми модификациями.
Наконец, мы экспериментируем с количеством сверточных слоев в слое возмущения, увеличивая количество сверточных слоев в каждом слое возмущения, и видим улучшение производительности. Мы представляем результаты этих экспериментов в разделе II, основанные на 8-канальных изображениях иSpaceNetнабор данных.
Оригинальное название статьи «Сверхразрешение на спутниковых снимках с использованием глубокого обучения, часть 1», автор: Патрик Хагерти.
Статья представляет собой упрощенный перевод, для получения более подробной информации, пожалуйста, проверьте исходный текст:The official blog of CosmiQ Works in Medium
Эта статья написанаСообщество Alibaba Cloud YunqiОрганизация переводов.