【Бумажный перевод】 Сеть глубокой остаточной усадки

глубокое обучение

Перевод предназначен только для обучения, добро пожаловать на перепечатку

【тема】Deep Residual Shrinkage Networks for Fault Diagnosis 

【Перевод】Диагностика неисправностей на основе глубокого остаточного сокращения сети

Абстрактный

【Перевод】В этой статье предлагается новый метод глубокого обучения, названный сетью глубокой остаточной усадки, для улучшения способности методов глубокого обучения изучать признаки по сильным шумовым сигналам и достигать высокой точности диагностики неисправностей. Мягкая пороговая обработка встроена как нелинейный слой в глубокие нейронные сети для устранения второстепенных функций. Кроме того, учитывая, что пороговые значения при мягком пороговом определении трудно установить, сеть глубокого остаточного сжатия, предложенная в этой статье, использует подсеть для автоматической установки этих пороговых значений, что позволяет избежать опыта в области обработки сигналов. Эффективность этого метода проверена опытами при самых разных шумах.

【Ключевые слова】Глубокое обучение, глубокие остаточные сети, диагностика неисправностей, мягкое пороговое значение, вибрационный сигнал. 

【Перевод】Глубокое обучение, глубокие остаточные сети, диагностика неисправностей, мягкое пороговое значение, вибрационные сигналы.

Введение


【例句】Вращающееся оборудование играет важную роль в производстве, электроснабжении, транспорте и аэрокосмической промышленности. Однако, поскольку эти вращающиеся машины работают в суровых условиях, их системы механической трансмиссии неизбежно будут сталкиваться с некоторыми отказами, что приведет к авариям и экономическим потерям. Точная диагностика неисправностей систем механической трансмиссии может использоваться для планирования технического обслуживания, продления срока службы и обеспечения личной безопасности.


【Перевод】Существующие алгоритмы диагностики неисправностей механических трансмиссионных систем можно разделить на две категории: одна основана на анализе сигналов, а другая основана на машинном обучении. Как правило, методы диагностики неисправностей, основанные на анализе сигналов, определяют тип неисправности путем обнаружения компонентов вибрации или характерных частот, связанных с неисправностью. Однако для больших вращающихся машин сигнал вибрации часто накладывается множеством различных сигналов вибрации, включая частоту зацепления шестерен, частоту вращения валов и подшипников и т. д. Что еще более важно, когда неисправность находится на ранней стадии, компоненты вибрации, связанные с неисправностью, часто бывают слабыми и легко подавляются другими компонентами вибрации и гармониками. В целом, традиционные методы диагностики неисправностей, основанные на анализе сигналов, часто затрудняют обнаружение компонентов вибрации и характерных частот, связанных с неисправностями.


【Перевод】С другой стороны, метод диагностики неисправностей, основанный на машинном обучении, не требует определения компонентов и характеристических частот, связанных с неисправностью, при диагностике неисправности. Во-первых, набор статистических признаков (например, эксцесс, среднеквадратичное значение, энергия, энтропия) может быть извлечен для характеристики состояния работоспособности; затем классификатор (например, многоклассовая машина опорных векторов, нейронная сеть с одним скрытым слоем, классификатор Yess наивной оболочки) можно научить диагностировать неисправности. Однако извлеченные статистические признаки часто недостаточно различительны, что затрудняет различение неисправностей, что приводит к низкой точности диагностики. Таким образом, поиск набора отличительных признаков является давней проблемой диагностики неисправностей на основе машинного обучения.


【Перевод】В последние годы методы глубокого обучения, то есть методы машинного обучения с несколькими слоями нелинейного отображения, стали мощным инструментом диагностики неисправностей на основе сигналов вибрации. Методы глубокого обучения могут автоматически извлекать характеристики из необработанных данных о вибрации, чтобы заменить традиционные статистические характеристики и получить высокую точность диагностики. Например, Инс и др. применили одномерную свёрточную нейронную сеть для изучения особенностей текущих сигналов для диагностики неисправностей двигателя в реальном времени. Шао и др. применили сверточную сеть глубокого доверия для диагностики неисправностей подшипников двигателя. Одна проблема, однако, заключается в том, что градиент функции ошибок постепенно становится неточным во время обратного распространения слой за слоем. Поэтому параметры некоторых слоев вблизи входного слоя не могут быть хорошо оптимизированы.


【Перевод】Глубокие остаточные сети — это новый вариант сверточных нейронных сетей, в котором используется идентификационный путь для упрощения оптимизации параметров. В глубоких остаточных сетях градиенты не только обратно распространяются слой за слоем, но также передаются непосредственно на предыдущие уровни через идентификационный путь. Благодаря превосходным возможностям оптимизации параметров, в некоторых недавних исследованиях для диагностики неисправностей применялись сети с глубокими остатками. Например, Ма и др. применили глубокую остаточную сеть, интегрирующую демодулированные частотно-временные характеристики, для диагностики неисправностей планетарных редукторов в нестабильных условиях. Чжао и др. использовали глубокую остаточную сеть для объединения нескольких наборов коэффициентов вейвлет-пакетов для диагностики ошибок. В этих работах были проверены преимущества глубоких остаточных сетей по сравнению с обычными свёрточными нейронными сетями.


【Перевод】Вибрационные сигналы, полученные от крупных вращающихся механизмов (таких как ветроэнергетика, станки, тяжелые грузовики), часто содержат большое количество шума. При работе с сильными зашумленными вибрационными сигналами способность глубоких остаточных сетей к изучению признаков часто ухудшается. Ядро свертки в глубокой остаточной сети на самом деле является фильтром, при помехах шума функция неисправности может быть не обнаружена. В этом случае высокоуровневые признаки, полученные в выходном слое, будут недостаточно различимы и не смогут точно классифицировать неисправности. Поэтому необходимо разработать новые методы глубокого обучения для диагностики неисправностей вращающихся механизмов в условиях сильного шума.


【Перевод】В этом документе предлагаются две сети глубокой остаточной усадки, а именно сети глубокой остаточной усадки с общими порогами между каналами и сети глубокой остаточной усадки с разными порогами между каналами, чтобы улучшить способность изучать характеристики по сигналам сильной шумовой вибрации.Наконец, точность улучшена диагностика неисправностей. Основные вклады этой статьи резюмируются следующим образом: (1) Мягкая пороговая обработка (т. е. популярное уравнение усадки) встраивается в качестве нелинейного слоя в глубокую структуру для эффективного удаления особенностей, связанных с шумом. (2) Специально разработанная подсеть используется для адаптивной установки порога, так что каждый вибрационный сигнал имеет свой собственный уникальный набор порогов. (3) При мягком установлении порогов рассматриваются два вида порогов, то есть пороги, общие для каналов, и пороги, которые различаются между каналами. Отсюда же и название предложенного метода.


【Перевод】 Оставшаяся часть этой статьи организована следующим образом. Раздел II кратко рассматривает классические сети глубокой остаточной усадки и развивает предлагаемую сеть глубокой остаточной усадки. Третья часть — экспериментальное сравнение. Раздел IV завершается.

II Теория разработанных DRSN (Theory of Deep Residual Shrinkage Networks)


【Перевод】 Как описано в Разделе 1, в качестве потенциального метода, способного изучать отличительные признаки из сильно зашумленных вибрационных сигналов, это исследование рассматривает интеграцию глубокого обучения и мягкого порога. Соответственно, в этом разделе основное внимание уделяется разработке двух улучшенных вариантов сетей с глубокими остатками, а именно сетей с глубокими остаточными сокращениями с общими порогами между каналами и сетей с глубокими остаточными сокращениями с разными порогами между каналами. Подробно представлены соответствующие теоретические основы и необходимые идеи.

А. Основные компоненты


【Перевод】Независимо от того, является ли это глубокой остаточной сетью или предложенной глубокой остаточной сетью усадки, существуют некоторые основные компоненты, такие же, как и у традиционных сверточных нейронных сетей, включая сверточные слои, выпрямленные функции активации линейных единиц, пакетную нормализацию, глобальное среднее объединение , кросс-энтропийная функция ошибки. Понятия этих основных компонентов представлены ниже.


【Перевод】Сверточные слои являются ключом к тому, чтобы сверточные нейронные сети отличались от традиционных полносвязных нейронных сетей. Сверточные слои могут значительно уменьшить количество параметров, которые необходимо обучить. Это достигается за счет использования сверток вместо перемножения матриц. Параметры в ядре свертки намного меньше весов в полносвязном слое. Кроме того, когда количество параметров невелико, глубокое обучение с меньшей вероятностью пострадает от переобучения и, следовательно, может получить более высокую точность на тестовом наборе. Операция свертки между входной картой объектов и ядром свертки с добавлением смещения может быть выражена как... . Свертку можно повторить определенное количество раз, чтобы получить выходную карту объектов.


【Перевод】На рисунке 1 показан процесс свертки. Как показано на рис. 1(a)-(b), карты признаков и ядра свертки на самом деле являются трехмерными тензорами. В этой статье входным сигналом является одномерный вибрационный сигнал, поэтому высоты карт признаков и ядер свертки всегда равны 1. Как показано на рисунке 1(c), ядро ​​свертки скользит по входной карте объектов, чтобы получить канал выходной карты объектов. В каждом сверточном слое обычно имеется более одного ядра свертки, поэтому выходная карта объектов имеет несколько каналов.


【Перевод】Рисунок 1 (a) Карта признаков, (b) ядро ​​свертки и (c) схематическая диаграмма процесса свертки


【Перевод】Пакетная нормализация — это метод нормализации признаков, встроенный в глубокие структуры в виде обучаемых слоев. Цель пакетной нормализации состоит в том, чтобы облегчить проблему дрейфа внутренней ковариации, когда распределение признаков часто постоянно меняется во время обучения. В этом случае обучаемые параметры должны постоянно адаптироваться к изменяющемуся распределению признаков, что увеличивает сложность обучения. Пакетная нормализация нормализует признаки на первом этапе для получения фиксированного распределения, а затем адаптивно корректирует это распределение во время обучения. Формула вводится позже.


【Перевод】Функция активации обычно является неотъемлемой частью нейронной сети и обычно используется для реализации нелинейного преобразования. За последние несколько десятилетий было предложено много видов функций активации, таких как сигмовидная, тангенциальная и ReLU. Среди них функция активации ReLU в последнее время привлекла большое внимание, потому что ReLU может эффективно избежать проблемы исчезновения градиента. Производная функции активации ReLU равна 1 или 0, что может помочь контролировать диапазон значений функции, чтобы он был примерно постоянным, когда функция передается между слоями. Функциональное выражение ReLU равно max(x,0).


【Перевод】 Объединение глобальных средних — это операция, которая вычисляет среднее значение для каждого канала карты объектов. Как правило, глобальное среднее объединение используется перед окончательным выходным слоем. Объединение глобальных средних может уменьшить количество весов в полностью связанном выходном слое, тем самым снижая риск переобучения в глубоких нейронных сетях. Объединение глобальных средних может также решить проблему поступательного изменения, так что на особенности, изученные глубокой нейронной сетью, не повлияет изменение положения воздействия разлома.


【Перевод】Функция кросс-энтропийных потерь обычно используется в качестве целевой функции задачи множественной классификации и оптимизируется в направлении минимума. По сравнению с традиционной функцией потери среднеквадратичной ошибки функция потери перекрестной энтропии часто может обеспечить более высокую скорость обучения. Это связано с тем, что градиент функции потерь кросс-энтропии для веса нелегко ослабить до нуля по сравнению с функцией потерь среднеквадратичной ошибки. Чтобы вычислить функцию кросс-энтропийных потерь, функции сначала преобразуются в интервал ноль-единица с помощью функции softmax. Тогда функция кросс-энтропийных потерь может быть рассчитана по формуле. После получения функции кросс-энтропийных потерь для оптимизации параметров можно использовать градиентный спуск. После определенного количества итераций глубокая нейронная сеть может быть полностью обучена.

B. Архитектура классической ResNet


【Перевод】Глубокие остаточные сети — это новый метод глубокого обучения, которому в последние годы уделяется большое внимание. Остаточные строительные блоки являются основными компонентами. Как показано на рис. 2(а), остаточный строительный блок состоит из двух пакетных нормировок, двух выпрямленных линейных блоков, двух сверточных слоев и пути идентичности. Путь идентификации является ключом к тому, чтобы сделать глубокие остаточные сети лучше, чем сверточные нейронные сети. Градиент функции кросс-энтропийных потерь в нормальной сверточной нейронной сети обратно распространяется слой за слоем. При использовании идентификационного пути градиенты могут более эффективно возвращаться к предыдущим слоям, поэтому параметры могут обновляться более эффективно. На рис. 2(b)-(c) показаны два оставшихся строительных блока, способных выводить карты признаков разного размера. Здесь причиной уменьшения размера выходной карты признаков является снижение вычислительной сложности последующих слоев; причиной увеличения количества каналов является облегчение интеграции различных признаков в сильные отличительные признаки. На рис. 2(d) показана общая структура глубокой остаточной сети, включая входной слой, сверточный слой, ряд остаточных строительных блоков, пакетную нормализацию, функцию активации ReLU, глобальное среднее объединение и полное соединение. выходной слой. Между тем, глубокие остаточные сети служат эталоном для дальнейшего улучшения в этом исследовании.


【Перевод】Рисунок 2. 3 оставшихся строительных блока: (а) размер входной карты объектов = размер выходной карты объектов, (б) ширина выходной карты объектов уменьшена вдвое, (в) ширина выходной карты карта характеристик уменьшена вдвое, канал удваивает число. (d) Общая структура глубоких остаточных сетей.

C. Разработка фундаментальных архитектур для DRSN


【Перевод】В этом подразделе сначала представлен первоначальный драйвер предлагаемой сети глубокой остаточной усадки, а затем подробно описана структура предлагаемой сети глубокой остаточной усадки. 

1) Теоретическая основа


【Перевод】За последние 20 лет мягкое пороговое значение часто использовалось в качестве ключевого шага во многих алгоритмах шумоподавления сигнала. Обычно сигнал преобразуется в домен. В этой области признаки, близкие к нулю, не важны. Затем мягкое пороговое значение обнуляет эти функции, близкие к нулю. Например, в качестве классического алгоритма шумоподавления сигнала вейвлет-порог обычно включает три этапа: вейвлет-разложение, мягкое определение порога и реконструкцию вейвлета. Для того чтобы обеспечить эффект снижения шумов сигнала, ключевой задачей пороговой обработки вейвлетов является разработка фильтра. Этот фильтр может преобразовывать полезную информацию в относительно большие функции, а информацию, связанную с шумом, в функции, близкие к нулю. Однако разработка таких фильтров требует значительных знаний в области обработки сигналов и часто очень сложна. Глубокое обучение предлагает новый способ решения этой проблемы. Эти фильтры могут быть автоматически оптимизированы с помощью алгоритмов обратного распространения, а не разработаны экспертами. Таким образом, комбинация мягкого порога и глубокого обучения является эффективным способом удаления зашумленной информации и создания отличительных признаков. Мягкая пороговая установка устанавливает функции, близкие к нулю, непосредственно в ноль, вместо того, чтобы устанавливать отрицательные функции в ноль, как это делает ReLU, поэтому отрицательные и полезные функции могут быть сохранены.


【Перевод】Процесс мягкой пороговой обработки показан на рис. 3(а). Можно видеть, что производная выхода с мягким порогом равна 1 или 0 по отношению к входу, поэтому он также очень эффективен для предотвращения проблемы исчезновения градиента и взрыва градиента.


【Перевод】Рисунок 3 (а) Мягкая пороговая обработка, (б) ее частная производная


【Перевод】В традиционном алгоритме шумоподавления часто трудно установить подходящее значение порога. При этом для разных выборок оптимальный порог часто разный. В ответ на эту проблему порог глубокой остаточной сети усадки автоматически определяется в глубокой сети, что позволяет избежать ручных операций. В сети глубокой остаточной усадки этот способ установки порога представлен в следующей статье.

2) Архитектура разработанной DRSN-CS (Сетевая архитектура глубокого остаточного сокращения с общими порогами между каналами)


【Перевод】Предлагаемая Сеть глубокого остаточного сжатия с общими порогами между каналами, вариант Глубоких остаточных сетей, использует мягкое пороговое значение для удаления функций, связанных с шумом. Мягкая пороговая обработка встроена как нелинейный слой в остаточный строительный блок. Что еще более важно, пороги автоматически запоминаются в остаточном стандартном блоке, описанном ниже.


【Перевод】Рисунок 4 (a) Остаточный модуль с общими порогами между каналами, (b) Глубокая остаточная сеть усадки с общими порогами между каналами, (c) Остаточные модули с разными порогами между каналами, (d) Различные пороги между каналами Глубокий остаток усадочная сеть


【Перевод】Как показано на рис. 4(а), названном «Строительный блок остаточного усадки для общих порогов между каналами», который отличается от остаточного строительного блока на рис. 2(а), существует специальный блок для оценки soft threshold требуемый порог. В этом специальном модуле глобальное среднее объединение применяется к абсолютным значениям карт признаков для получения одномерных векторов. Затем этот одномерный вектор передается в двухуровневую полносвязную сеть для получения параметра масштабирования. Сигмовидная функция округляет этот параметр масштабирования, чтобы он был между нулем и единицей. Затем этот параметр масштабирования, умноженный на среднее абсолютных значений карт признаков, служит порогом. Таким образом, порогом можно управлять в подходящем диапазоне, и выходные характеристики не будут нулевыми.


【Перевод】Структура предлагаемой сети глубокой остаточной усадки с общими порогами между каналами показана на рис. 4 (b), которая аналогична классической глубокой остаточной сети на рис. 2 (d). Единственное отличие состоит в том, что остаточный сокращающийся блок (RSBU-CS) с общими порогами между каналами заменяет обычный остаточный строительный блок. Некоторое количество RSBU-CS складывается таким образом, чтобы характеристики, связанные с шумом, постепенно уменьшались. Еще одним преимуществом является то, что пороговые значения изучаются автоматически, а не устанавливаются экспертами вручную, поэтому при реализации сетей глубокого остаточного сжатия с общими пороговыми значениями для каналов не требуется никаких знаний в области обработки сигналов.

3) Архитектура разработанной DRSN-CW (глубокая остаточная усадка структуры сети с разными порогами между каналами)


【Перевод】Сети глубокого остаточного сокращения с разными пороговыми значениями между каналами — это еще один вариант сетей глубокого остаточного сокращения. Отличие от сетей с глубоким остаточным сжатием, которые используют общие пороги для каналов, заключается в том, что каждый канал карты объектов имеет свой собственный независимый порог. Остаточные модули с разными порогами между каналами показаны на рис. 4(c). Карта объектов x сначала сжимается в одномерный вектор и передается в двухслойный полносвязный слой. Второй слой полносвязного слоя имеет более одного нейрона, а количество нейронов равно количеству каналов входной карты признаков. Выход полностью связанного слоя принудительно находится между нулем и единицей. Затем рассчитывается порог. Подобно сетям с глубоким остаточным сокращением, где пороговые значения являются общими для каналов, пороговые значения всегда положительны и находятся в разумных пределах, предотвращая ситуации, когда все выходные функции равны нулю.


【Перевод】Общая структура сети глубокой остаточной усадки с различными порогами между каналами показана на рис. 4(d). Определенное количество модулей сложено, чтобы можно было изучить отличительные признаки. Среди них мягкое пороговое значение в качестве функции сжатия используется для нелинейного преобразования для устранения информации, связанной с шумом.

Reference:

M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep Residual Shrinkage Networks for Fault Diagnosis, IEEE Transactions on Industrial Informatics, 2019, DOI: 10.1109/TII.2019.2943898

https://ieeexplore.ieee.org/document/8850096

Ссылка на ссылку:

Поймите глубокое остаточное сжатие сетей за считанные секундыWoohoo.Краткое описание.com/afraid/90 волосы 1EF1 не 0…

Сеть глубокого остаточного сокращения: (1) Базовые знанияблог woo woo woo.cn на.com/so-9527/afraid/1…

Сеть глубокого остаточного сокращения: (2) Общая идеяблог woo woo woo.cn на.com/so-9527/afraid/1…

Сеть глубокого остаточного сокращения: (3) структура сетиблог woo woo woo.cn на.com/so-9527/afraid/1…

Сеть глубокого остаточного сокращения: (IV) установка порога в соответствии с механизмом вниманияблог woo woo woo.cn на.com/so-9527/afraid/1…

Сеть глубокого остаточного сокращения: (5) экспериментальная проверкаблог woo woo woo.cn на.com/so-9527/afraid/1…

[Бумажные заметки] Сеть глубокого остаточного сокращенияzhuanlan.zhihu.com/p/85238942