«Это 10-й день моего участия в ноябрьском испытании обновлений, ознакомьтесь с подробностями события:Вызов последнего обновления 2021 г."
предисловие
Несколько дней назад при рекуррентном обучении Cifar-100 с использованием модели Resnet50 я получил следующие два графика - график корректного изменения скорости и график изменения потерь (было выполнено 230 пакетов итераций, только первый модифицированный A слой понижения дискретизации ядро свертки и конечный выходной полносвязный слой):
acc
loss
Во время обучения появились два «обрыва», которые появились более чем в пятидесяти партиях и около 120 партий в фигуре соответственно.
В ответ на эту ситуацию могут быть запрошены некоторые ответы, и некоторые резюме сделаны ниже.
причина
На самом деле, до того, как произошли два «утеса», скорость обучения была скорректирована и уменьшилась.
Давайте сначала поговорим о выводе: благодаря корректировке скорости обучения потери уменьшаются, так что сеть может продолжать корректироваться, выходя из локального оптимума и начиная сходиться к глобальному оптимуму.
Сходимость скорости обучения показана на рисунке ниже.Исходная потеря итеративно сходится в пределах локального оптимального диапазона.Однако из-за плохого обобщения локальной оптимальной модели обратная связь по скорости точности не идеальна, а производительность по потерям должна быть на высоком уровне. (Как показано на рисунке 1)
Однако, когда скорость обучения регулируется, штраф за потери для модели изменяется, что позволяет модели выйти за пределы локального оптимума (хотя она может перейти в локальный оптимум).
В то же время из-за перескакивания на другие «долины» потерь многие параметры были перенастроены и находятся в другом состоянии, более близком к оптимальному решению, но эффект все равно слабый, и может иметь место явление восстановления потерь. :
Продолжайте регулировать скорость обучения. Видно, что модель достигает «долины», где (вероятно) находится оптимальное решение. Обнаружено, что изменения кривых потерь и соответствия имеют тенденцию быть пологими, и модель сходится медленно: