Почему сверточные нейронные сети инвариантны к переводу
Проще говоря, свертка + максимальное объединение примерно равно инвариантности перевода.
свертка: Проще говоря, когда изображение переводится, представление на соответствующей карте объектов также переводится.
Изображение ниже является просто примером, иллюстрирующим проблему. В левом нижнем углу входного изображения находится лицо, а после свертки черты лица (глаза, нос) также располагаются в левом нижнем углу карты признаков.
Если признак лица находится в верхнем левом углу изображения, то соответствующий признак после свертки также находится в верхнем левом углу карты признаков.
В нейронных сетях свертки определяются как детекторы признаков в разных местах, что означает, что независимо от того, где появляется цель на изображении, она обнаружит одни и те же признаки и выдаст один и тот же ответ. Например, если лицо перемещено в нижний левый угол изображения, ядро свертки не обнаружит его черты, пока оно не переместится в нижний левый угол.
объединение: Например, максимальное объединение, оно возвращает максимальное значение в принимающем поле, если максимальное значение перемещается, но все еще находится в этом принимающем поле, то слой объединения будет по-прежнему выводить такое же максимальное значение. Это что-то вроде инварианта перевода.
Таким образом, эти две операции вместе обеспечивают некоторую инвариантность перевода, даже если изображение переведено, свертка гарантирует, что его особенности все еще могут быть обнаружены, а объединение сохраняет представление максимально согласованным.
Суммировать
Трансляционная инвариантность свертки заключается в том, что после свертки + объединения, независимо от того, перемещается ли позиция объекта, его всегда можно обнаружить и ввести на следующий уровень, а поскольку полное соединение представляет собой вычисление взвешенной суммы, функции, активированные CNN могут быть переданы на следующий уровень.
Ссылаться на
1. woohoo.cn blog.com/Терри Пайтон…