Примечания к глубокому обучению (3) Расчетный график и метод производных операций

глубокое обучение

Из приведенного выше объяснения логистической регрессии мы знаем, что прямая операция может вычислять выходной результат, а обратная операция может вычислять градиент или производную для настройки параметров. Состав вычислительного графа выводится с помощью простой формулы операции, что приводит к методам работы прямого распространения и обратного распространения в глубоком обучении.

1. Вычислительный граф и прямое распространение

Гипотетическая функцияJ(a,b,c)=3(a+bc).J(a,b,c)=3(a+bc).В соответствии с порядком операций, мы делаем,u=bc,v=a+u,J=3v.u=bc,v=a+u,J=3v.ps Если вы изучаете многомерное исчисление в высшей математике, то следующее содержание может быть аналогом многомерного дифференциального исчисленияПравило цепи, поэтому получается следующая цифра (по сути, форвардный расчет — это процесс расчета распределения):在这里插入图片描述Процесс пошагового расчета проще, и эффективнее будет передать его компьютеру, поэтому эта часть опущена.

2. Вычислить производные и обратное распространение

在这里插入图片描述 dJdv=3,dvda=1.\frac{dJ}{dv}=3,\frac{dv}{da}=1.

dJda=dJdvdvda=3×1=3.\frac{dJ}{da}=\frac{dJ}{dv} \frac{dv}{da}=3\times1=3.

dJdv=3,dvdu=1.\frac{dJ}{dv}=3,\frac{dv}{du}=1.

dJdu=dJdvdvdu=3×1=3.\frac{dJ}{du}=\frac{dJ}{dv} \frac{dv}{du}=3\times1=3.

dJdb=dJdvdvdududb=3×1×2=6.\frac{dJ}{db}=\frac{dJ}{dv} \frac{dv}{du} \frac{du}{db}=3\times1 \times 2=6.

3. Правила использования символа программирования

Прося совета,dFinalOutputVardvar\frac{dFinalOutputVar}{dvar}Представляет производную конечной выходной переменной по некоторой связанной переменной. При программировании для удобного и единообразного представления этой производной переменной вводится имя переменной:dvar.dvar.Например,dJdudu,dJdada.\frac{dJ}{du}\to du,\frac{dJ}{da}\to da.В то же время этот способ записи также позволяет избежать промежуточных переменных.

4. Резюме

  • Блок-схема вычислений, которая вычисляет функцию стоимости впередJJ, функция, которую необходимо оптимизировать
  • При вычислении ряда производных наиболее эффективным подходом являетсяВ обратном порядке (счет справа налево), следуйте красной стрелке, шаг за шагом для вывода (цепочка)