Самое простое объяснение, почему градиентный спуск полезен

машинное обучение искусственный интеллект

Когда я впервые столкнулся с концепцией градиентного спуска, когда я изучал алгоритмы машинного обучения, многие алгоритмы обучения использовали градиентный спуск, а затем данные и преподаватели также говорили, что при движении в направлении, противоположном градиенту, значение функции уменьшалось. самый быстрый, но исследовательский Когда дело доходит до причин, многие люди не ясны. Поэтому я разобрался со своим собственным пониманием и доказал этот вывод с точки зрения производной по направлению, чтобы мы знали, что это такое и почему оно такое~

Ниже я сначала не упоминаю понятие градиента, а разберу следующее, исходя из собственного понимания, и шаг за шагом выведу происхождение градиента:

  • Производная

Геометрический смысл производной может быть знаком многим людям: когда область определения функции и значение находятся в области действительных чисел, производная может представлять наклон касательной на кривой функции. В дополнение к наклону касательной производная также представляет скорость изменения функции в этой точке.

Преобразование приведенной выше формулы в следующее изображение:

(из Википедии)

Грубо говоря, производная представляет собой отношение изменения значения функции к изменению независимой переменной, когда изменение независимой переменной стремится к бесконечно малому, а геометрический смысл имеет тангенс этой точки. Физический смысл имеет (мгновенную) скорость изменения в данный момент...

Обратите внимание, что в функции с одной переменной изменяется только одна независимая переменная, то есть существует только одна скорость изменения в одном направлении, поэтому функция с одной переменной не имеет частных производных.

  • Частная производная

Поскольку мы говорим о частных производных, то здесь задействованы по крайней мере две независимые переменные.В качестве примера возьмем две независимые переменные, z=f(x,y) .От производной к частной производной, то есть от кривой к поверхности.На кривая Точка имеет только одну касательную. Но в одной точке поверхности существует бесконечно много касательных.

Частная производная, о которой мы говорим, относится к скорости изменения многомерной функции вдоль оси координат.

Это означает, что функция не изменяется в направлении у, а скорость изменения значения функции вдоль направления оси абсцисс

Это означает, что функция не изменяется в направлении x, а скорость изменения значения функции вдоль направления оси y

Соответствующее представление изображения выглядит следующим образом:

Так каков же геометрический смысл, соответствующий частной производной?

  • Частная производнаяповерхность плоскаяПересекаемая поверхность находится в точкекасательной внаклон оси x

  • Частная производнаяповерхность плоскаяПересекаемая поверхность находится в точкекасательной внаклон оси Y

Может быть, здесь читатель обнаружил ограничения частных производных.Оказывается, что частные производные, которые мы узнали, относятся к скорости изменения многомерной функции вдоль оси координат, но нам часто нужно учитывать скорость изменения многомерной функции. функция в любом направлении, затем выводится производная по направлению.

  • производная по направлению

Наконец, мы подошли к нашему главному событию, производной по направлению, давайте потихоньку углубимся в него.

Предположим, вы стоите на склоне холма и вам известен уклон (наклон) склона холма.

Карта холма выглядит следующим образом:

Предположим, что склон холма представлен какВы уже должны уметь делать наклоны основных двух направлений.

Наклон в направлении y можно получить путем частичного дифференцирования по y.

Точно так же наклон в направлении x также может быть получен путем частичного дифференцирования x

Затем мы можем использовать эти два частных дифференциала, чтобы найти наклон в любом направлении (аналогично тому факту, что все векторы на плоскости могут быть представлены двумя базисными векторами)

Теперь у нас есть это требование, и мы хотим найтиА как насчет наклона направления.представляет собой поверхность,заТочка в области, единичный векторуклонугол между этим вектором и положительной осью X. Единичный векторМожет представлять направление любой производной направления, как показано ниже:

Итак, давайте рассмотрим, как найтиНаклон направления, который можно определить по аналогии с предыдущей производной, получается следующим образом:

Предполагатьбинарная функция,является единичным вектором, если существуют следующие предельные значенияЭта производная по направлению обозначается как

Тогда это предельное значение называется производной по направлению от f вдоль направления u, тогда какотличается, мы можем найти производную по направлению в любом направлении Это также показывает полезность производной по направлению, которая должна дать нам рассмотрение скорости изменения функции в любом направлении.

При вычислении производной по направлению, помимо использования вышеприведенного метода определения, мы также можем использовать частный дифференциал для упрощения нашего расчета.

выражение:(Насчет того, почему он был установлен, есть много материалов, здесь не в фокусе обсуждения)

Тогда на плоскости есть бесчисленное множество направлений, в каком направлении функция изменяется больше всего?

Меня пока не интересуют градиенты, я сначала напишу выражение:

Предполагать

Тогда мы можем получить:( для вектора A с векторомугол между)

Тогда, если в это времяЧтобы получить максимальное значение, т. е. когдаКогда он равен 0 градусов, то есть вектор(Это направление всегда меняется, ищем направление, в котором функция изменяется быстрее всего) когда он параллелен вектору А (это направление фиксируется, когда точка фиксирована), производная по направлению является наибольшей.Производная по направлению равна самое большое, то есть Единичные шаги, значение функции изменяется быстрее всего в этом направлении.

Что ж, теперь мы нашли направление, в котором значение функции падает быстрее всего. Это направление совпадает с направлением вектора А. Затем я называю вектор А градиентом (когда определяется точка, определяется направление градиента) , То есть понятно, почему направление градиента является направлением с наибольшей скоростью изменения функции! ! ! (Потому что направление, в котором эта функция изменяется больше всего, первоначально называлось градиентом)

Насколько я понимаю, градиент не рождается из ниоткуда.Когда у нас есть это требование (требуется направление, значение этой функции направления меняется больше всего), мы получаем направление, и тогда это направление имеет смысл, мы придаем ему имя, называемое градиентом